Co je to token?
Token je základní jednotka textu, kterou jazykový model zpracovává. Model nečte celá slova ani jednotlivá písmena, ale tokeny, tedy krátké úseky textu. Token může být celé slovo, část slova, jeden znak nebo interpunkční znaménko. Jako hrubé vodítko pro angličtinu platí, že jeden token odpovídá zhruba čtyřem znakům a 100 tokenů přibližně 75 slovům.
Když pošlete prompt, model nejdřív váš text rozdělí na tokeny. Pak předpovídá další token, jeden po druhém, dokud nesestaví celou odpověď. V tokenech se měří jak váš vstup, tak výstup modelu.
Lidsky řečeno
Tokeny si představte jako stavebnici z kostek. Dlouhé slovo jako „neuvěřitelný“ se rozpadne na pár kostek („ne“, „uvěřit“, „elný“), zatímco běžné slovo jako „kočka“ je jediná kostka. Model nikdy nevidí hotovou větu tak jako vy. Vidí hromadu kostek a rozhoduje, která nejspíš přijde další.
Proč na tom záleží
- Cena. Poskytovatelé AI účtují za tokeny, a to jak za vstup, tak za výstup. Delší prompt i delší odpověď stojí víc, takže počet tokenů je vaše cenovka.
- Limit kontextu. Každý model pojme najednou jen omezený počet tokenů, čemuž se říká kontextové okno. Dlouhý dokument se prostě nemusí vejít, a tak ho musíte zkrátit nebo rozdělit.
- Rychlost. Model generuje token po tokenu, takže delší odpověď se objevuje déle.
Na co si dát pozor
- Tokeny nejsou slova. Počítání slov skutečný součet podceňuje, hlavně u kódu, čísel a jiných jazyků než angličtiny, kde se jedno slovo může rozpadnout na hodně tokenů.
- Skryté tokeny se sčítají. Systémové pokyny, příklady i historie konverzace sedí v kontextovém okně a počítají se do limitu, i když je nevidíte.
- Čeština stojí víc. Kvůli diakritice a koncovkám potřebuje čeština na stejný význam často víc tokenů než angličtina, což zvyšuje cenu a rychleji plní okno.
Související články
- Co je to LLM? - Model, který tokeny čte a píše jeden po druhém.
- Co je to prompt? - Pokyn, který posíláte, a proč se jeho délka měří v tokenech.
- Co jsou embeddingy? - Jak model promění tokeny na čísla, se kterými umí pracovat.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
