Wstęp: Czy SRE to tylko dla gigantów?
Gdy słyszysz „Site Reliability Engineering”, przed oczami stają Ci pewnie przepastne budżety Google, setki dashboardów i zespoły inżynierów pijących kombuchę. Prawda jest jednak taka, że SRE to przede wszystkim zestaw praktyk, które – odpowiednio dopasowane – mogą uratować Twoją małą firmę przed utratą klientów, reputacji i pieniędzy. Nie potrzebujesz do tego armii specjalistów ani kupek złota. Potrzebujesz świadomości, co w Twoim systemie może się zepsuć i jak na to reagować.
W tym artykule pokażę Ci, jak zacząć myśleć o niezawodności w sposób praktyczny, bez zbędnego hype’u i z konkretnymi przykładami z życia wziętymi.
1. Po co Ci SRE, skoro strona „działa”?
Każdy founder ma to na sumieniu: „Działa, nie ruszaj”. A potem przychodzi poniedziałek, ruch rośnie, a strona zaczyna odpowiadać po 5 sekundach. Klienci klikają „wstecz”, a Ty tracisz pieniądze. Ale to nie musi być czarny scenariusz – SRE to sposób, by przewidzieć, zanim się przewróci.
Przykład z życia:
Klient – mały e-commerce z 50 zamówieniami dziennie. Strona działała na współdzielonym hostingu, działała stabilnie… do Black Friday. Wtedy przyszło 10x więcej użytkowników i strona padła na 3 godziny. Straty? Około 80 zamówień, czyli kilkanaście tysięcy złotych. A wystarczyło kilka prostych alertów i skalowanie w poziomie.
SRE nie musi oznaczać Kubernetes i setek wskaźników. Często to proste rzeczy: monitoring kluczowych endpointów, logi błędów, automatyczne restarty usług.
2. Trzy praktyki SRE, które możesz wdrożyć już dziś
2.1. Service Level Objectives (SLO) – nie musisz mierzyć wszystkiego
W małej firmie zasoby są ograniczone, więc nie mierz wszystkiego. Skup się na tym, co bezpośrednio wpływa na klienta. Przykładowo: czas odpowiedzi strony, dostępność koszyka, czas przetwarzania płatności. Ustal cele – na przykład „99% zapytań koszyka odpowiada w mniej niż 200 ms”. I monitoruj tylko to, co jest kluczowe.
Jak to zrobić tanio?
- Użyj darmowego monitoringu syntetycznego (np. Checkly, UptimeRobot).
- Wrzuć do logów kilka kluczowych zdarzeń.
- Jeśli nie masz budżetu na komercyjne narzędzia, użyj Grafana + Prometheus z darmową warstwą.
2.2. Obserwowalność zamiast monitorowania z lampek
Monitoring powie Ci, że coś jest czerwone. Observability powie Ci, dlaczego. W małej firmie często wystarczą dobrze skonfigurowane logi i trace’y. Nie musisz od razu implementować OpenTelemetry w całym stacku. Zacznij od centralizacji logów (np. Loki + Grafana) i dodania unikalnego ID transakcji.
Historia z frontu:
Pewien klient tracił 10% zamówień – system płatności zwracał błąd, ale nikt nie wiedział, dlaczego. Okazało się, że problemem był timeout na zewnętrznym API. Wystarczyło dodać log z czasem wykonania i alert przy przekroczeniu 3 sekund. Koszt: kilka godzin pracy developera.
2.3. Postmortem bez obwiniania
Kiedy coś padnie – i padnie – nie szukaj winnego. Przeprowadź bezstresową retrospektywę: co się stało? Dlaczego się stało? Jak zapobiec w przyszłości? W małej firmie możesz zrobić to w gronie 2-3 osób. Ważne, żeby z każdej awarii wyciągnąć konkretną poprawkę.
3. Kiedy SRE naprawdę zaczyna się opłacać?
SRE ma sens, gdy:
- Twoja aplikacja zaczyna przynosić stały dochód (nawet 10 000 zł/miesiąc).
- Każda minuta przestoju kosztuje Cię realne pieniądze (np. utrata zamówienia).
- Zaczynasz mieć użytkowników, którzy zgłaszają problemy z wydajnością.
- Twoja baza kodu rośnie i coraz więcej rzeczy może się zepsuć.
Pamiętaj: SRE to inwestycja, ale zwykle zwraca się po pierwszym poważnym incydencie. Lepiej zapobiegać.
4. Praktyczne narzędzia dla małej firmy
Nie daj się wciągnąć w zakup drogich narzędzi. Oto zestaw startowy:
- Logi: Grafana Loki (darmowy, łatwy do postawienia na własnym serwerze).
- Metryki: Prometheus + Node Exporter (monitoring CPU, RAM, disk).
- Alerty: Alertmanager (wysyła e-maile lub notyfikacje do Slacka).
- Syntetyczny monitoring: Checkly (darmowa warstwa do 50k requestów).
- Trace’e – na początek wystarczą logi z ID transakcji.
Jeśli masz już budżet ~500 zł/miesiąc, rozważ Datadog lub New Relic, które oferują gotowe dashboards.
Podsumowanie
SRE w małej firmie to nie fanaberia, ale często brakujący element układanki. Nie potrzebujesz certyfikatu ani wielkiego zespołu. Potrzebujesz trzech rzeczy: zdefiniować, co jest ważne (SLO), sprawdzać to (monitoring + logi) i uczyć się na błędach (postmortem).
Pamiętaj: niezawodność to przewaga konkurencyjna. Klient, który zapłaci u Ciebie bez problemu, wróci. A ten, który trafi na błąd – pójdzie do konkurencji.
Jeśli nie masz pewności, od czego zacząć, umów się na bezpłatną konsultację. Razem przejrzymy Twój system i znajdziemy pierwsze rzeczy do poprawy. JurskiTech.pl – bo kod to dopiero początek.


