Co je Site Reliability Engineering?

Délka:

3 min

Publikováno:

9. června 2026

Co je Site Reliability Engineering (SRE)?

Site Reliability Engineering (SRE) je obor, který udržuje software spolehlivý tím, že na provoz nahlíží jako na softwarový problém. Místo ručních oprav serverů píšou SRE kód, který práci automatizuje, nastavují měřitelné cíle spolehlivosti a podle dat se rozhodují, kam vložit úsilí. Přístup vznikl v Googlu a dnes ho najdete všude, kde záleží na dostupnosti. Cílem není nulový výpadek, ale správná míra spolehlivosti za nejnižší udržitelnou cenu.

Lidsky řečeno

SRE si představte jako inženýra závodního týmu u boxů. Auto jen nezalepí, když se rozbije. Sleduje každé kolo, určí, jak často je porucha ještě přijatelná, a staví nástroje, aby další zastávka byla rychlejší a bezpečnější. Jeho úkol je udržet auto rychlé, aniž by tým vyhořel.

Klíčové myšlenky

SLI, SLO a rozpočet na chyby. SLI měří třeba dostupnost, SLO je cíl pro tuto hodnotu a rozpočet na chyby (error budget) říká, kolik si můžete dovolit selhání, než přibrzdíte vývoj nových funkcí.
Méně dřiny (toil). Opakovaná ruční práce se automatizuje, aby vývojáři problém vyřešili jednou, ne každý týden.
Postmortem bez hledání viníka. Po incidentu tým zkoumá, co v systému selhalo, ne koho obvinit.

Proč na tom záleží

Spolehlivost se dá změřit. Nastavíte jasné cíle a víte, kdy je plníte, místo abyste hádali.
Zdravá rovnováha rychlosti a stability. Rozpočet na chyby dává společné pravidlo, kdy dodávat rychle a kdy přibrzdit.
Méně hašení požárů. Automatizace a dobré návyky znamenají méně budíčků ve tři ráno a víc času na skutečnou práci.

Na co si dát pozor

Honba za stoprocentní dostupností. Dokonalá spolehlivost stojí mnohem víc, než přinese, a poslední zlomek se málokdy vyplatí.
SRE jako jen jiný název pro provoz. Bez automatizace a SLO je to stará práce s novým titulkem.
SLO, podle kterých nikdo nejedná. Cíle pomůžou jen tehdy, když tým opravdu změní chování ve chvíli, kdy rozpočet dojde.

Související články

Co je DevOps? - Širší kultura společné tvorby a provozu softwaru.
Co je observabilita? - Jak SRE vidí, co jejich systémy dělají.
Co je řízení incidentů? - Postup pro zvládání výpadků, když nastanou.

Zpět na postřehy

Chcete být o krok napřed?

Nenechte si utéct naše nejlepší postřehy. Žádný spam, jen praktické analýzy, pozvánky na exkluzivní eventy a shrnutí podcastů přímo do vaší schránky.