Co je samoučící učení?
Samoučící učení (self-supervised learning) je způsob, jak natrénovat model na surových datech, aniž by je někdo ručně označoval. Model si trénovací signál vytvoří z dat sám. Klasický trik: zakryje slovo ve větě a má ho předpovědět. Původní text už správnou odpověď obsahuje, takže žádné lidské značky nejsou potřeba. Na tomto přístupu stojí většina velkých jazykových modelů včetně těch za ChatGPT nebo Claudem.
Lidsky řečeno
Je to jako učit se jazyk čtením tisíců knih, ve kterých jsou náhodná slova začerněná, a u každého hádat, co tam patří. Nikdo vás neznámkuje. Odpověď prozradí sama kniha. Když to děláte dost dlouho, začnete chápat, jak jazyk funguje.
Proč na tom záleží
- Značkování je drahé, surová data levná. Samoučící učení otevře obrovské množství textu, obrázků a kódu, který už na internetu je, aniž byste platili lidi za jeho popisování.
- Škáluje to. Čím víc neoznačených dat modelu předáte, tím víc vzorců zachytí. Přesně tak se dnešní velké modely dostaly tak daleko.
- Staví obecný základ. Takto předtrénovaný model se nejdřív naučí širokou strukturu a pak mu na zaměření stačí jen málo označených dat.
Na co si dát pozor
- Převezme, co je v datech. Když je zdrojový text zaujatý nebo chybný, model to nasaje. Kvalita dat určuje strop.
- Předtrénování není hotový produkt. Samoučící model většinou ještě potřebuje doučit, než se začne chovat tak, jak chcete.
- Záměna s učením bez učitele. Oba postupy se obejdou bez lidských značek, ale samoučící učení si z dat sestaví cíl, který předpovídá, kdežto učení bez učitele jen hledá strukturu.
Související články
- Co je učení s učitelem? - Trénování na datech, která označili lidé.
- Co je učení bez učitele? - Hledání struktury bez značek a bez cíle k předpovědi.
- Co je to LLM? - Modely postavené na samoučícím předtrénování.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
