Co je feature engineering?
Délka:
4 min
Publikováno:
9. června 2026

Co je feature engineering?
Feature engineering je práce, při které ze surových dat vytvoříte užitečné příznaky (anglicky features), tedy vstupní signály, ze kterých se model strojového učení učí. Model sám o sobě nerozumí záznamu o zákazníkovi ani časovému razítku. Potřebuje čísla a kategorie, které jasně vyjadřují, na čem pro danou úlohu záleží. Feature engineering je způsob, jak je vytvoříte.
Surové „datum nákupu“ samo o sobě moc užitečné není. Když z něj uděláte „den v týdnu“, „počet dní od poslední objednávky“ nebo „je svátek“, model najednou má něco, co umí propojit s chováním. Data tam byla pořád, učitelnými je udělala až tahle příprava.
Lidsky řečeno
Představte si vaření. Lednice je plná surovin, ale modelu nemůžete naservírovat celou lednici. Feature engineering je příprava: umýt, nakrájet a navážit, aby se na pánev dostalo přesně to, co recept potřebuje. Ze stejných surovin, dobře nebo špatně připravených, vzniknou hodně rozdílná jídla.
Proč na tom záleží
- Často to porazí složitější model. Týmy sáhnou po větším algoritmu tam, kde by víc pomohly lepší příznaky. Kvalitní vstupy bývají důležitější než chytrý model.
- Vkládá do dat znalost oboru. Příznak jako „poměr neúspěšných přihlášení k celkovému počtu“ nese odbornou zkušenost, kterou samotné řádky logu nemají. Učíte tím model to, o čem lidé už vědí, že je důležité.
- Dělá modely jednodušší a rychlejší. Méně, ale výstižnějších příznaků znamená model, který se učí rychleji, běží levněji a snáz se vysvětluje.
- Odhalí problémy v datech včas. Při tvorbě příznaků se na data musíte podívat zblízka, takže odhalíte chybějící hodnoty, špatné jednotky a duplicity dřív, než vám otráví model.
Na co si dát pozor
- Únik dat. Když příznak skrytě obsahuje informaci, kterou byste v okamžiku predikce neměli, model vypadá při testování skvěle a v produkci selže. To je nejdražší chyba v celém oboru.
- Příliš mnoho příznaků. Naházet dovnitř každý sloupec, který spočítáte, přidá šum, zpomalí učení a zvýší riziko přeučení. Víc příznaků neznamená víc signálu.
- Vyrábět všechno ručně. Modely hlubokého učení si některé příznaky vytvoří samy ze surového textu, obrázků nebo zvuku. Ruční feature engineering má největší smysl u tabulkových, firemních dat, tam míň.
- Vytvořit jednou a zapomenout. Vztahy v datech se časem mění. Příznak, který loni dobře předpovídal, může potichu přestat fungovat, takže ho musíte hlídat a obnovovat.
Související články
- Co je strojové učení? - Širší postup, do kterého feature engineering vstupuje.
- Co jsou embeddingy? - Jak modely automaticky promění text a další složitá data na číselné příznaky.
- Co je datová pipeline? - Potrubí, které doručuje a upravuje data, ze kterých příznaky stavíte.
Chcete být o krok napřed?
Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.