Co je AI inference?

Délka:

3 min

Publikováno:

9. června 2026

Co je AI inference?

Inference je okamžik, kdy natrénovaný model vezme nový vstup a vytvoří výstup. Napíšete do ChatGPT otázku a on odpoví. Ta odpověď je inference. Model se v tu chvíli už neučí. Jen na čerstvý požadavek uplatní to, co se naučil během tréninku.

Pomůže rozdělit život modelu na dvě fáze. Trénink je drahý, jednorázový proces, při kterém se model učí vzorce z obrovských dat. Inference je všechno, co přijde potom, pokaždé, když model někdo použije. Trénink proběhne jednou, inference milionkrát.

Lidsky řečeno

Berte trénink jako roky na lékařské fakultě a inference jako lékaře u pacienta. Studium je za ním. Teď se podívá na vaše příznaky a na místě stanoví diagnózu. Náročné učení proběhlo dřív, inference je uplatnění těch znalostí v praxi, jeden pacient (nebo jeden prompt) po druhém.

Proč na tom záleží

Tady vznikají opakované náklady. Trénink je velká počáteční položka, ale za inference platíte u každého volání API, u každé odpovědi chatbota, každý den. Při velkém provozu obvykle inference pohltí největší část rozpočtu.
Rychlost utváří zážitek. Jak rychle model odpoví, tedy jeho latence, je otázka inference. Pomalý asistent působí rozbitě, i když odpoví dobře.
Běží na skutečném hardwaru. Inference potřebuje grafické karty nebo specializované čipy. Víc uživatelů znamená víc strojů, a proto se z intenzivního využití AI stává reálná otázka infrastruktury.

Na co si dát pozor

Nepleťte ji s tréninkem. Inference model nic nového nenaučí. Ve výchozím stavu si nepamatuje váš minulý rozhovor, pokud mu tu historii znovu nedodáte.
Nepodceňte účet. Týmy často počítají s tréninkem a pak je překvapí náklady na inference, jakmile provoz naroste. Náklad na jeden požadavek odhadněte včas.
Nezapomeňte na poměr rychlost versus cena. Větší modely odpovídají lépe, ale běží pomaleji a dráž. Velikost modelu přizpůsobte tomu, co úloha opravdu potřebuje.

Související články

Co je fine-tuning? - Druhá strana téže mince: jak model naučit dřív, než ho začnete používat.
Co je to LLM? - Typ modelu, který běží na inference, když mu pošlete prompt.
Co je LLM observabilita? - Sledování nákladů, rychlosti a kvality, když model jednou běží naživo.

Zpět na postřehy

Chcete být o krok napřed?

Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.