Monitoring sklepu: checklist alertów P1, P2, P3

Strategia oparta o dane i cele biznesowe.
Rekomendacje UX, integracji i automatyzacji.
Plan wdrożeń i wsparcie zespołu.

Poprzedni artykuł opisywał obszary i narzędzia monitoringu sklepu internetowego. Tutaj idziemy o krok dalej i prezentujemy konkretną listę alertów do wdrożenia — podzieloną na trzy kategorie: krytyczne (budzą kogoś o 3 w nocy), ważne (wymagają reakcji w ciągu godzin) i informacyjne (zbieramy, analizujemy, ale nie alarmują). To jest praktyczna mapa, z której możesz korzystać bezpośrednio konfigurując swoje narzędzia monitoringu. Jeśli nie czytałeś jeszcze artykułu o narzędziach i podejściu do monitoringu — zacznij tam, tutaj zakładamy, że wiesz, co i czym monitorować.

Alerty krytyczne (P1) — natychmiastowa reakcja

Alerty krytyczne to zdarzenia, przy których każda minuta oznacza utracone przychody lub poważne ryzyko dla danych. Powinny trafiać na telefon (SMS, call) do osoby on-call — niezależnie od godziny. Lista: sklep niedostępny — HTTP 5xx lub timeout na stronie głównej przez więcej niż 2 minuty. Checkout niedostępny — strona /cart lub /checkout zwraca błąd lub ładuje się powyżej 10 sekund. Brak zamówień przez X godzin w godzinach szczytu — próg ustalany na podstawie historii (np. jeśli w weekend między 10:00 a 14:00 normalne jest 15+ zamówień na godzinę, a jest 0 przez 30 minut — alarm). Błąd fatal PHP na krytycznych plikach — woocommerce.php, checkout, payment gateway. Certyfikat SSL wygasa za mniej niż 14 dni — przed wygaśnięciem, bo wygasły cert natychmiast blokuje dostęp dla klientów.

Chcesz profesjonalny monitoring sklepu?

Konfigurujemy monitoring z alertami P1/P2/P3, on-call rotation i integracją z SLA. Wiesz o awarii zanim klient napisze maila.

Zapytaj o monitoring i SLA

Każdy z tych alertów powinien mieć jasno zdefiniowany playbook: kto jest on-call, jakie są pierwsze kroki diagnostyki, jak eskalować jeśli on-call nie reaguje w ciągu 15 minut. Brak playbooków przy krytycznych alertach to sytuacja, gdy budzisz się o 3 w nocy z alarmem i nie wiesz, co robić — co jest gorsze niż brak monitoringu, bo generuje stres bez efektu.

Alerty ważne (P2) — reakcja w godzinach roboczych lub szybciej

Alerty P2 to problemy, które wpływają na działanie sklepu lub dane, ale nie blokują całkowicie sprzedaży. Wymagają reakcji w ciągu 1–4 godzin (dla e-commerce z dużym ruchem) lub do początku następnego dnia roboczego (dla sklepów z mniejszym wolumenem). Lista: czas ładowania strony produktu powyżej 5 sekund przez więcej niż 10 minut — wskazuje na problem z serwerem, bazą danych lub wtyczką. Wskaźnik błędów PHP powyżej normalnego poziomu — np. więcej niż 10 nowych błędów w logu w ciągu godziny. Bramka płatnicza zwraca błędy walidacji lub timeout — płatności mogą nie przechodzić, ale checkout technicznie działa. Brak synchronizacji stanów magazynowych przez więcej niż 2h — zamówienia przyjmowane, ale stany w sklepie mogą być nieaktualne. Backup nie wykonał się zgodnie z harmonogramem — brak ostatniego backupu przez więcej niż 26h (przy harmonogramie dobowym).

Te alerty trafiają zazwyczaj jako email lub powiadomienie Slack do zespołu — nie jako budzik telefoniczny. Wyjątek: jeśli P2 pojawia się w Black Friday lub innym szczycie sprzedażowym, traktuj go jak P1 i działaj natychmiast.

Alerty informacyjne (P3) — zbieramy i analizujemy

Alerty informacyjne nie wymagają natychmiastowej reakcji — są materiałem do analizy w regularnych przeglądach systemu (tygodniowych lub miesięcznych). Lista: Core Web Vitals poniżej progu (LCP > 2,5s, INP > 200ms) — ważne dla SEO, ale nie jest kryzysem; planuj naprawę w ciągu tygodnia. Wzrost liczby 404 powyżej normy — może wskazywać na broken links, usuniętą kategorię produktów lub błędne przekierowania po aktualizacji. Nieudane próby logowania do panelu WordPress powyżej progu — sygnał ataku brute-force; weryfikuj i rozważ dodatkowe zabezpieczenia (2FA, limit loginów). Wzrost zużycia dysku powyżej 80% — ostrzeżenie zanim serwer się zapełni i padnie. Czas zapytań do bazy danych powyżej 2 sekund — slow queries wskazują na potrzebę optymalizacji bazy lub indeksowania; nie jest to kryzys, ale degeneruje wydajność.

Jak ustrukturyzować alerty — routing i eskalacja

Dobry system alertów to nie tylko lista zdarzeń — to zdefiniowany routing: kto co dostaje i kiedy. P1 → SMS + call do on-call (zawsze). P2 → Slack #alerty + email do technikalnego → eskalacja do on-call po 30 minutach bez odpowiedzi. P3 → email digest raz dziennie lub zapis do dashboardu przeglądanego na tygodniowych standupach. Narzędzia, które wspierają taki routing: PagerDuty i Opsgenie dla P1 (zarządzanie on-call, eskalacje, rotacje dyżurów), Slack i email dla P2/P3, własny dashboard w Grafana lub Datadog dla widoku synoptycznego całości.

Ostatnia zasada: przejrzyj alerty raz na kwartał. Alerty, które przez 3 miesiące nie wywołały żadnej akcji — są albo niepotrzebne (zbyt czuły próg), albo nigdy nie zostały sprawdzone (nikt nie wie, że się wysyłają). Monitoring, który generuje „szum” (fałszywe alarmy lub ignorowane powiadomienia), przestaje być monitoringiem — staje się tłem, które ludzie wyłączają.

Autor Zespół Visio Lab

Agencję Visio Lab tworzy zespół z wieloletnim doświadczeniem w projektowaniu i budowie rozwiązań cyfrowych. Specjalizujemy się w WordPress, Symfony/Sylius, e-commerce i SEO. Współpracujemy m.in. z firmami z sektorów HealthTech, EdTech, produkcji i usług — od audytu i strategii cyfrowej po wdrożenie i długofalowy rozwój produktu. Piszemy o technologii, e-commerce i digitalizacji biznesu z perspektywy praktyków, którzy codziennie realizują projekty dla klientów B2B.

FAQ

Najczestsze pytania

Odpowiedzi na pytania, które pojawiaja sie przy wdrożeniach.

Co powinien zrobić alert P1 przy awarii sklepu?

Alert P1 powinien natychmiast wywołać SMS i call do osoby on-call — niezależnie od godziny. Powinien być powiązany z playbook'iem: pierwsze kroki diagnostyki, dane do logowania, eskalacja jeśli on-call nie reaguje. Bez playbooków alert P1 generuje stres bez efektu.

Jak ustalić progi dla alertu 'brak zamówień'?

Progi powinny bazować na historii: sprawdź dane sprzedaży za ostatnie 3 miesiące i ustal, ile zamówień normlanie przychodzi w danym przedziale godzinowym (np. 10:00–14:00 w weekendy). Alert gdy liczba zamówień spada poniżej 50% normy przez 30+ minut. Różne progi dla godzin szczytu i niskich godzin.

Dlaczego alert SSL powinien być P1?

Wygasły certyfikat SSL natychmiast blokuje dostęp do sklepu — przeglądarki wyświetlają ostrzeżenie bezpieczeństwa i większość klientów zamknie stronę. Alert 14 dni przed wygaśnięciem daje czas na reakcję bez kryzysu. Jeśli wygaśnięcie nastąpi — to jest P1 natychmiast.

Jak uniknąć 'zmęczenia alertami'?

Przejrzyj alerty raz na kwartał: alerty, które przez 3 miesiące nie wywołały żadnej akcji, są albo zbyt czułe (fałszywe alarmy) albo ignorowane. Wyłącz lub podnieś próg dla 'szumów'. Alerty muszą być konkretne i wymagające reakcji — inaczej zespół zaczyna je ignorować.

Jakie narzędzia obsługują routing i eskalację alertów?

PagerDuty i Opsgenie to dedykowane platformy do zarządzania on-call z rotacjami dyżurów, eskalacjami i integracją z narzędziami monitoringu. Dla prostszego setupu: Slack z bot powiadomieniami + email. UptimeRobot i Better Uptime mają wbudowane routing do SMS/email/Slack.

Powiazane

Czytaj tez

Wybrane wpisy z podobnej tematyki.

Monitoring sklepu: checklist alertów — krytyczne, ważne, informacyjne

Alerty krytyczne (P1) — natychmiastowa reakcja

Alerty ważne (P2) — reakcja w godzinach roboczych lub szybciej

Alerty informacyjne (P3) — zbieramy i analizujemy

Jak ustrukturyzować alerty — routing i eskalacja

System ticketowy dla software house’u: wymagania, których zwykle brakuje

SLA dla e-commerce: co znaczą zapisy umowy i na co uważać

Jak wygląda dobre SLA dla e-commerce i systemów B2B