Co je transformer model?
Transformer je typ neuronové sítě, který v roce 2017 představili výzkumníci z Googlu. Stojí na něm skoro každý velký jazykový model, který dnes používáme, a právě proto písmeno „T“ ve zkratce GPT znamená transformer. Jeho průlomem je mechanismus zvaný pozornost (attention): místo aby model četl text striktně zleva doprava, dívá se na všechna slova naráz a u každé části věty rozhodne, která slova jsou pro porozumění nejdůležitější.
Záleží na tom, protože význam závisí na kontextu. Ve spojení „břeh řeky“ a „peníze v bance“ znamená slovo banka (a její zvuková podoba) něco jiného. Pozornost umožní modelu zvážit okolní slova a vybrat správný význam. Zároveň dovolí zpracovat celou větu naráz místo slovo po slově, a proto se transformery trénují mnohem rychleji než modely před nimi.
Lidsky řečeno
Představte si, že čtete větu a u každého slova mrknete na všechna ostatní slova, abyste rozhodli, co vlastně znamená. To slůvko „to“ na konci odstavce? Vrátíte oči zpět a najdete, k čemu „to“ patří. Pozornost je přesně tohle, jen to model dělá pro každé slovo naráz a okamžitě. A právě schopnost propojit vzdálená slova dělá z transformeru dobrého jazykáře.
Proč na tom záleží
- Umožnil dnešní AI. Rychlejší trénink na mnohem větším množství dat proměnil jazykové modely v ChatGPT, Gemini a Claude.
- Zvládá vzdálený kontext. Pozornost propojí slova, která jsou daleko od sebe, takže model neztrácí přehled o tom, o kom nebo o čem věta mluví.
- Není to jen pro text. Stejný princip dnes pohání i modely pro obraz, zvuk a kód, a proto se na „transformer“ narazí i daleko za hranicemi chatbotů.
Na co si dát pozor
- Pozornost není porozumění. Model váží slova podle statistických vzorců, ne proto, že by chápal význam jako člověk.
- Větší kontext něco stojí. Pozornost porovnává každé slovo s každým, takže dvojnásobný vstup může práci víc než zdvojnásobit. To je jeden z důvodů, proč jsou dlouhé prompty pomalejší a dražší.
- Pořád halucinuje. Transformer předpovídá pravděpodobný text, takže i sebejistá a plynulá odpověď může být špatně. Co je důležité, ověřte.
Související články
- Co je to LLM? - Velké jazykové modely jsou transformery natrénované na obrovském množství textu.
- Co je neuronová síť? - Širší rodina modelů, do které transformer patří.
- Co je kontextové okno? - Kolik textu transformer dokáže vzít v potaz naráz.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
