DX Heroes logo
#ai
#machine-learning

Co je zpětnovazební učení?

Délka: 

3 min

Publikováno: 

9. června 2026

Co je zpětnovazební učení?

Co je zpětnovazební učení?

Zpětnovazební učení (reinforcement learning, RL) je způsob trénování AI metodou pokus-omyl. Model (říká se mu agent) se neučí z označených příkladů, ale zkouší v nějakém prostředí různé akce. Když se daří, dostane odměnu, když ne, dostane trest. Postupně se naučí, která strategie mu časem přinese nejvíc odměny. Nikdo mu správnou odpověď neřekne přímo. Agent ji objeví tím, že experimentuje a drží se toho, co funguje.

Lidsky řečeno

Je to jako výcvik psa. Pravidla povelu „sedni“ mu nevysvětlíte z příručky. Když to udělá správně, dostane pamlsek, když ne, nedostane nic, a po mnoha pokusech si pes spojí, co mu pamlsky vynáší. Zpětnovazební učení trénuje AI úplně stejně, jen místo pamlsků slouží signál odměny.

Kde se používá

  • Ladění AI asistentů — díky metodě RLHF (učení z lidské zpětné vazby) se modely jako ChatGPT nebo Claude učí dávat užitečné a slušné odpovědi. Lidé odpovědi seřadí podle kvality a model se naučí, čemu dát přednost.
  • Hry a simulace — RL agenti se naučili porážet nejlepší hráče v go, šachu i složitých počítačových hrách tím, že odehráli miliony partií sami proti sobě.
  • Robotika a řízení — učení robotů chodit, uchopovat předměty nebo řídit, kde „správný pohyb“ závisí na neustálé zpětné vazbě z okolí.
  • Provoz — chlazení datových center, časování doporučení nebo logistika, kde systém optimalizuje dlouhodobý výsledek, ne jeden okamžik.

Na co si dát pozor

  • Odměna je všechno a snadno se nastaví špatně. Když odměníte špatnou věc, agent najde zkratky, které jste nikdy nezamýšleli. Návrh odměny je ta těžká část.
  • Spotřebuje hodně dat i výpočtů. Učení pokus-omyl může trvat miliony pokusů, což je levné v simulaci, ale drahé nebo nebezpečné ve skutečném světě.
  • Výsledky bývají nestabilní. Drobná změna v nastavení může chování hodně rozhodit, takže RL systémy je potřeba pečlivě otestovat, než jim začnete věřit.
  • Nehodí se na každý problém. Když už máte označená data a jasnou správnou odpověď, obyčejné učení s učitelem je obvykle jednodušší a levnější.

Související články

  • Machine Learning vs Deep Learning - Jak spolu souvisí hlavní rodiny trénování AI.
  • Co je to LLM? - Jazykové modely, které zpětnovazební učení pomáhá doladit.
  • Co je agentní AI? - AI, která jedná v prostředí, blízký příbuzný RL agenta.

Chcete být o krok napřed?

Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.