Alertuj na symptomy widoczne dla użytkownika powiązane z SLO, używaj multi-window burn-rate, a każdy alert musi mieć właściciela i runbook. Deduplikuj i kieruj alerty do właściwego zespołu.
Odpowiedź zaawansowana
Głębiej
Akcjonowalne alerty to wpływ i jasność:
Alertuj na burn-rate SLO, nie na każdy błąd.
Używaj multi-window (szybkie + wolne) dla spike’ów i trendów.
Zdefiniuj poziomy severity i oczekiwane reakcje.
Dodaj kontekst: linki do dashboardów, trace i ostatnich deployów.
Przykłady
Koncepcja burn-rate:
Jeśli burn-rate > 14x przez 5m -> page
Jeśli burn-rate > 2x przez 1h -> ticket