Co je LLM observabilita?
LLM observabilita je schopnost pochopit, co aplikace s jazykovým modelem za běhu opravdu udělala. Běžná observabilita sleduje požadavky, chyby a dobu odezvy. LLM observabilita přidává to, co je u jazykových modelů jedinečné: celý prompt poslaný modelu, odpověď, kterou vrátil, spotřebované tokeny, náklady na volání a posouzení, jestli byla odpověď správná a užitečná.
Záleží na tom proto, že aplikace s jazykovými modely selhávají jinak než běžný software. Funkce buď vrátí správnou hodnotu, nebo spadne s chybou. Jazykový model umí vrátit plynulou, sebejistou a hezky naformátovanou odpověď, která je prostě špatně. Nic nespadne, žádná výjimka se nevyhodí, a bez správného přehledu si toho nikdy nevšimnete.
Lidsky řečeno
Běžný monitoring je jako zkontrolovat, že zásilka dorazila včas. LLM observabilita je otevřít krabici a ověřit, že uvnitř je opravdu to, co jste si objednali. Balík může přijít rychle, vypadat dokonale a stejně obsahovat něco jiného.
Co sledujete
- Prompty a odpovědi. Přesný vstup a výstup každého volání. Když je odpověď špatná, tohle si přečtete jako první.
- Trasování přes kroky. Reálné aplikace řetězí mnoho volání: vyhledání, volání nástroje a pak generování. Trasování ukáže celý řetězec, takže vidíte, který krok selhal.
- Tokeny a náklady. Každé volání něco stojí. Bez sledování může jeden neefektivní prompt potichu nasekat velký účet.
- Doba odezvy. Modely umí být pomalé. Čas odezvy hlídáte stejně jako u kterékoli služby, kterou vidí uživatel.
- Kvalita. Přes zpětnou vazbu uživatelů, automatické kontroly nebo druhý model, který výstup oznámkuje, měříte, jestli jsou odpovědi opravdu dobré, ne jen jestli vůbec vznikly.
Proč na tom záleží
- Bez ní jsou halucinace neviditelné. Špatná odpověď vypadá v logu úplně stejně jako správná, dokud nezachytíte a nevyhodnotíte její obsah.
- Náklady umí rychle vystřelit. Účtování za tokeny znamená, že špatný prompt nebo smyčka opakování se promění v reálné peníze. Zachytíte to jen tehdy, když to měříte.
- Ladění potřebuje celý řetězec. „Odpověď byla špatně“ samo o sobě nestačí. Když vidíte nalezený kontext a všechny prompty, poznáte, jestli selhalo vyhledávání, prompt, nebo model.
Na co si dát pozor
- Logovat jen vstupy a výstupy. Bez nalezeného kontextu, zvoleného modelu a parametrů nedokážete špatnou odpověď zopakovat ani vysvětlit.
- Žádný signál o kvalitě. Když sledujete náklady a dobu odezvy, ale nikdy neměříte, jestli jsou odpovědi správné, hlídáte tu levnou a snadnou půlku a míjíte podstatu.
- Nedbale zachytávat citlivá data. Prompty a odpovědi často obsahují osobní nebo důvěrné údaje. Předem se rozhodněte, co ukládáte, co maskujete a jak dlouho to držíte.
- Vyhodnocovat jen při testování. Reálné vstupy uživatelů jsou rozháranější než vaše testovací sada. Kvalitu měřte i v produkci, ne jen před spuštěním.
Související články
- Co je observabilita? - Širší praxe, jak pochopit běžící systémy z dat, která vydávají.
- Co je to LLM? - Jazykový model, do jehož chování se snažíte vidět.
- Co je to RAG (Retrieval-Augmented Generation)? - Vzor, jehož krok vyhledávání bývá častým zdrojem špatných odpovědí, který stojí za trasování.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
