Co je to difuzní model?
Difuzní model je druh generativní AI, který tvoří obrázky tak, že začne od náhodného šumu a postupně ho promění v jasný obraz. Učí se to obráceně: při tréninku sleduje, jak se čisté obrázky krok za krokem rozpadají v šum, a učí se každý takový krok vrátit zpět. Když je model hotový, dokáže začít jen od šumu a postupným odšumováním se propracovat k úplně novému obrázku, který odpovídá vašemu zadání. Difuzní modely pohánějí většinu dnešních generátorů obrázků, mimo jiné Midjourney, DALL-E a Stable Diffusion.
Lidsky řečeno
Představte si sochaře před hrubým kvádrem mramoru. Nic nepřidává, naopak odsekává všechno, co není socha, dokud se postava neobjeví. Difuzní model pracuje stejně, jen tím kvádrem je obrazovka plná náhodného šumu. Podle vašeho zadání odebírá vždy kousek šumu, a po desítkách průchodů se vynoří obrázek tam, kde byl předtím jen mlhavý zrnitý povrch.
Jak to funguje
Trénink probíhá ve dvou směrech. Nejdřív dopředný proces bere skutečné obrázky a v malých krocích k nim přidává šum, dokud nezbude jen zrnitá plocha. Model to studuje, aby v každé fázi věděl, jak vypadá obrázek „o kousek zašuměnější“.
Pak přichází to, co reálně používáte: zpětný proces. Model začne od čistého šumu a odhaduje, co odebrat, aby byl obrázek o trochu čistší. Tohle mnohokrát zopakuje a každý krok výsledek doostří. Samostatná textová část čte vaše zadání a každý krok navádí, takže „liška v zasněžené krajině“ tlačí odšumování k liškám a sněhu, ne k něčemu jinému. Počet kroků určuje rovnováhu mezi rychlostí a kvalitou.
Kde se s tím setkáte
- Generátory obrázků — Midjourney, DALL-E, Stable Diffusion i Google Imagen využívají difuzi pod kapotou.
- Generování videa — nástroje jako Sora nebo Runway rozšiřují stejnou myšlenku přes jednotlivé snímky a vytvoří krátký klip.
- Úpravy skutečných fotek — domalování chybějící části (inpainting) i rozšíření obrázku za jeho okraje (outpainting) stojí na stejném triku s odšumováním.
- Produktová a designová práce — vizuály, koncepty, marketingové obrázky a rychlé návrhy, kde se hodí mít náčrt místo prázdné plochy.
Na co si dát pozor
- Model hádá, nerozumí. Nemá žádnou představu o anatomii ani fyzice, a proto se mu často nepovedou ruce, text nebo odlesky. Než cokoli vypustíte ven, detaily si zkontrolujte.
- Na zadání záleží víc, než čekáte. Vágní zadání vede k obecnému výsledku. Buďte konkrétní v tom, co má být na obrázku, v jakém stylu a kompozici.
- Je to pomalé a náročné na výkon. Každý obrázek projde mnoha kroky odšumování, takže generování stojí reálný strojový čas, obzvlášť ve vysokém rozlišení.
- Autorská práva a podoba lidí nejsou vyřešené. Modely učené na obrázcích z webu umí napodobit rozpoznatelný styl nebo tvář. Než se na výsledek spolehnete, vězte, kde ho použijete.
Související články
- Co to je AI? - Nejvyhledávanější a nejpoužívanější pojmy, které souvisejí s umělou inteligencí. Krátce a jednoduše.
- Co je to LLM? - Jazykový příbuzný obrázkových modelů, který předpovídá text slovo po slově.
- Co je to prompt? - Pokyn, který zadáte umělé inteligenci – a proč jeho formulace mění výsledek.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.
