Co je stochastický gradientní sestup?

Délka:

3 min

Publikováno:

9. června 2026

Co je stochastický gradientní sestup?

Stochastický gradientní sestup (stochastic gradient descent, SGD) je varianta gradientního sestupu, tedy algoritmu, kterým se modely učí. Obyčejný gradientní sestup změří chybu na celé sadě dat, než udělá jediný krok. U milionů příkladů je to ale strašně pomalé. SGD místo toho odhadne směr z malého náhodného vzorku dat, udělá krok a opakuje. „Stochastický“ znamená prostě náhodný: každý krok vychází z jiného náhodného výřezu.

V praxi téměř každý používá dávkový SGD (mini-batch), který na každý krok bere malou dávku (třeba 32 nebo 256 příkladů), ne jediný příklad. Takto se dnes ve výchozím nastavení trénují neuronové sítě i velké jazykové modely.

Lidsky řečeno

Vybrat nejlepší trasu napříč zemí tak, že nejdřív projdete každou silnici, by trvalo věčnost. Místo toho se zeptáte pár lidí poblíž, kudy se jde z kopce, uděláte krok a zeptáte se znovu. Každá odpověď je trochu nepřesná, ale pořád se hýbete a na dno se stejně dostanete. SGD vymění dokonalé informace za rychlost, a rychlost vyhrává.

Proč na tom záleží

Umožňuje trénink ve velkém. Bez něj by byl trénink na datech v měřítku internetu nemožně pomalý, protože každý krok by musel přečíst všechno.
Šum může pomoct. Protože každý krok vychází z jiného vzorku, cesta poskakuje. Tato náhodnost umí model vyhodit z mělkých špatných míst, ve kterých by hladší metoda uvízla.
Velikost dávky je skutečná páka. Malé dávky znamenají hlučnější a rychlejší kroky, velké dávky hladší a pomalejší. Volba ovlivní rychlost i výslednou kvalitu.

Na co si dát pozor

Špatně nastavená rychlost učení. Jako u každého gradientního sestupu platí, že moc velký krok utíká do nekonečna a moc malý se plouží. U SGD je to kvůli šumu ještě citlivější.
Velikost dávky jako vedlejší věc. Když ji zvolíte náhodně, plýtváte hardwarem nebo si zhoršíte výsledky. Souvisí s rychlostí učení a má se ladit společně s ní.
Čekat hladkou křivku. Ztráta u SGD cestou dolů poskakuje. To je normální, ne chyba. Pokrok posuzujte přes mnoho kroků, ne podle jednoho.

Související články

Co je gradientní sestup? - Základní algoritmus, který SGD zrychluje, vysvětlený od základů.
Co je neuronová síť? - Struktura, kterou SGD nejčastěji trénuje.
Co je overfitting? - Selhání, kterému trénink musí během učení předcházet.

Zpět na postřehy

Chcete být o krok napřed?

Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.