SRE w małej firmie: 3 błędy, które niszczą niezawodność
Gdy słyszysz SRE (Site Reliability Engineering), myślisz pewnie o Google, Netflix czy ogromnych zespołach inżynierów walczących z awariami na skalę globalną. Jako właściciel małej firmy możesz mieć wrażenie, że to nie dotyczy Ciebie – w końcu nie masz miliardów użytkowników ani 24/7 dyżurów.
Jednak prawda jest zupełnie inna. Nawet mały sklep e-commerce, platforma SaaS czy strona firmowa tracą zaufanie klientów, gdy aplikacja nie działa. A Ty siedzisz w weekend i szukasz błędu w logach.
SRE to nie tylko skalowanie – to świadome zarządzanie niezawodnością i wydajnością przy ograniczonych zasobach. W tym artykule pokażę Ci 3 najczęstsze błędy, które małe firmy popełniają w tym obszarze i jak je naprawić, nie zatrudniając armii specjalistów.
Błąd 1: Brak SLA i SLO, czyli zgadujemy, kiedy jest dobrze
Większość małych firm nie ma zdefiniowanych wewnętrznych celów niezawodności (Service Level Objectives – SLO). Owszem, hosting obiecuje „99.9% dostępności”, ale to tylko obietnica dostawcy. Ty potrzebujesz swoich własnych mierników.
Przykład z życia: Klient prowadzi SaaS do zarządzania małą księgowością. Strona działała 99.9% czasu, ale podczas rozliczeń miesięcznych (intensywny ruch) czas odpowiedzi API wzrastał do 10 sekund. Według hostingu wszystko było w porządku – aplikacja działała. Ale z punktu widzenia użytkownika? Katastrofa.
Jak to naprawić?
- Zdefiniuj 2-3 kluczowe SLO dla swojej usługi. Na przykład: czas odpowiedzi strony głównej < 2s dla 95% żądań.
- Ustal Service Level Agreement (SLA) tylko wtedy, gdy masz zobowiązania wobec klientów. Dla wewnętrznych potrzeb wystarczy SLO.
- Mierz – choćby prostym narzędziem monitorującym (np. uptimerobot, ale lepiej coś z prawdziwym monitoringiem wydajności).
Konsekwencje: Bez SLO nie wiesz, kiedy Twój system jest „chory”. A klienci nie mają litości – jeden wolny dzień i idą do konkurencji.
Błąd 2: „To tylko mała awaria” – brak zarządzania incydentami
Małe firmy często nie mają procedur na wypadek awarii. Serwer pada, wysyłasz maila do klientów: „przepraszamy, trwają prace techniczne”. Tylko że Ty tracisz na tym nie tylko pieniądze, ale i reputację.
Przykład z życia: Sklep e-commerce z 50 zamówieniami dziennie. Wykonawca wdraża nową funkcję w piątek po południu, co psuje integrację z płatnościami. Klienci nie mogą zapłacić przez 3 godziny. Nikogo nie informujecie, bo „zaraz naprawimy”. Ale w międzyczasie 15 zamówień przepada, a klienci są wściekli.
Jak to naprawić?
- Zdefiniuj kilka poziomów incydentów (krytyczny, duży, mały).
- Dla każdego poziomu określ reakcję: kto odpowiada, jak informować klientów (np. strona statusowa, social media), jak wygląda eskalacja.
- Nawet jeśli masz 1 osobę IT – zrób checklistę „co robić, gdy system nie działa”.
- Wdrażaj zmiany w bezpieczne okna – nigdy w piątek po 14.
Konsekwencje: Chaos przy awarii prowadzi do dłuższego przestoju. A w małej firmie każda godzina bez sprzedaży to realna strata.
Błąd 3: „U nas wszystko działa” – brak testowania awarii
Większość małych firm nie testuje, co się stanie, gdy coś pójdzie nie tak. Boją się, że symulowanie awarii coś zepsuje. Albo nie mają czasu. To jak przeprowadzka bez ubezpieczenia – niby taniej, ale jak się zdarzy, to boli.
Przykład z życia: Aplikacja webowa hostowana na jednym serwerze. Pojawia się błąd w bazie danych, który powoduje, że strona ładuje się 30 sekund. Nie ma żadnego failover – backup bazy jest na tym samym serwerze. Awaria trwa 2 dni, bo trzeba odtworzyć dane z zewnętrznego backupu (który też nie był testowany).
Jak to naprawić?
- Przeprowadź prosty „chaos engineering” w skali mikro. Na przykład: wyłącz na 5 minut jeden z komponentów (np. bazę danych, API) w środowisku staging (nie produkcyjnym!). Sprawdź, jak aplikacja reaguje.
- Testuj odtwarzanie backupu – przynajmniej raz na kwartał.
- Zadbaj o redundancję tam, gdzie jest krytyczna: baza danych, logowanie, płatności.
- Rozważ architekturę, która wybacza błędy (graceful degradation) – np. strona może działać bez API, wyświetlając komunikat „chwilowo niedostępne”.
Konsekwencje: Bez testów awarii pierwszy prawdziwy incydent kończy się długim przestojem i stratą danych.
Podsumowanie: SRE to nie tylko dla gigantów
SRE w małej firmie to przede wszystkim kultura myślenia o niezawodności jako o cesze systemu, a nie zadaniu wykonywanym tylko przy awarii. Nie potrzebujesz skomplikowanych narzędzi ani 10 inżynierów – zacznij od trzech prostych kroków:
- Zdefiniuj SLO – wiedz, co jest dla Ciebie „działa dobrze”.
- Przygotuj proces awaryjny – nie improwizuj, gdy wszystko płonie.
- Testuj słabe punkty – znajdź je zanim zrobią to użytkownicy.
Jeśli czujesz, że Twoja firma potrzebuje wsparcia w tych obszarach – w JurskiTech pomagamy małym firmom budować niezawodne aplikacje bez przesadnej inżynierii. Nie chodzi o to, by mieć SRE w CV, ale by system działał, gdy Ty śpisz.


