Co je učení bez učitele?
Učení bez učitele (unsupervised learning) je druh strojového učení, které najde strukturu v datech, aniž by mu někdo řekl správné odpovědi. U učení s učitelem model trénujete na označených příkladech: na tisících e-mailů, které už někdo označil jako spam, nebo ne. U učení bez učitele žádné značky nejsou. Předáte systému surová data a požádáte ho, ať vzorce najde sám: které skupiny patří k sobě, které body jsou neobvyklé, jaký tvar data mají.
Název to vystihuje. Během tréninku není žádný „učitel“, který by dával správné odpovědi. Model si musí data uspořádat sám. Právě proto se hodí ve chvíli, kdy předem nevíte, co vlastně hledáte.
Lidsky řečeno
Představte si, že vysypete krabici promíchaných lega na stůl bez návodu. Učení s učitelem je třídit podle příručky, která říká „tyhle do červené hromádky, tamty do modré“. Učení bez učitele je třídit úplně bez příručky: prostě začnete dávat k sobě kostky, které vypadají podobně, podle barvy, velikosti, tvaru, a vzorce se vynoří samy. Skupiny vám řeknou data, ne naopak.
K čemu slouží
- Shlukování. Dát k sobě podobné věci: zákazníky s podobnými nákupními návyky, dokumenty na podobná témata.
- Hledání anomálií. Najít to, co do vzorce nezapadá: podvody, vadné senzory, neobvyklá přihlášení.
- Snížení rozměrů. Zjednodušit složitá data na to podstatné, často jako krok před další analýzou.
- Segmentace zákazníků. Objevit ve vašich uživatelích přirozené skupiny, které jste předem nedefinovali.
Proč na tom záleží
- Žádné značkování. Označovat data ručně je pomalé a drahé. Učení bez učitele pracuje se surovými daty tak, jak jsou.
- Objevování, ne potvrzování. Vynese na povrch skupiny a odlehlé hodnoty, které jste nečekali, místo aby jen ověřilo, co už tušíte.
- Výchozí bod. Jeho výsledky často krmí další krok, třeba označí anomálie k ruční kontrole.
Na co si dát pozor
- Skupiny je třeba vyložit. Model najde shluky, ale neřekne vám, co znamenají. Smysl jim musí dát člověk.
- Není jediná správná odpověď. S jiným nastavením dostanete jiné skupiny. Není žádná značka, podle které byste výsledek ověřili, takže posoudit kvalitu je těžší.
- Co do něj vložíte, to dostanete. Rozháraná nebo zkreslená data dají zavádějící vzorce, stejně jako u každého strojového učení.
- Snadno se přepíská výklad. Vzorec v datech nemusí být skutečný. Berte zjištění jako hypotézy k ověření, ne jako závěry.
Související články
- Co je strojové učení? - Širší obor, do kterého učení bez učitele patří.
- Co je zpětnovazební učení? - Třetí způsob, jak se stroje učí, pokusem, omylem a odměnou.
- Machine learning vs. deep learning - Jak se nejmocnější podmnožina ML liší od zbytku.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
