Obserwowalność

Baza pytań rekrutacyjnych i wiedzy. Filtruj, szukaj i sprawdzaj swoją wiedzę.

Tematy

Logi vs metryki vs trace — kiedy używasz każdego z nich?

easyobservabilitylogsmetrics+1

Odpowiedź

Logi pokazują pojedyncze zdarzenia i kontekst, metryki pokazują trendy w czasie, a trace śledzą żądanie end-to-end między usługami. Logi są do detali, metryki do zdrowia i alertów, a trace do latencji i zależności.

Czym jest SLI i jak go definiujesz?

mediumslisloreliability

Otwórz pytanie

Odpowiedź

SLI (Service Level Indicator) to mierzalny sygnał zdrowia usługi, np. latencja, error rate lub dostępność. Definiuje się go w oparciu o doświadczenie użytkownika, z jasnym oknem pomiaru i progami.

Jak projektujesz alerty, żeby były akcjonowalne i miały mało szumu?

hardalertingslooncall

Otwórz pytanie

Odpowiedź

Alertuj na symptomy widoczne dla użytkownika powiązane z SLO, używaj multi-window burn-rate, a każdy alert musi mieć właściciela i runbook. Deduplikuj i kieruj alerty do właściwego zespołu.

Czym jest distributed tracing i jak propagujesz kontekst?

mediumtracingcontextdistributed-systems

Otwórz pytanie

Odpowiedź

Distributed tracing śledzi żądanie między usługami za pomocą trace/span ID. Kontekst propaguje się w nagłówkach (np. W3C traceparent) lub metadanych wiadomości, aby każda usługa dopinała span do tego samego trace.

Jak radzisz sobie z wysoką kardynalnością etykiet w metrykach?

hardmetricscardinalitylabels

Otwórz pytanie

Odpowiedź

Wysoka kardynalność etykiet (np. userId) mnoży serie metryk. Unikaj ich w metrykach, agreguj/bucketuj, a detale per encja przenieś do logów lub trace.

Czym jest sampling w tracingu i jakie są trade-offy?

mediumtracingsamplingcost

Otwórz pytanie

Odpowiedź

Sampling zachowuje tylko część trace’ów, aby kontrolować koszt. Zmniejsza storage i narzut, ale może ukrywać rzadkie błędy, więc strategia ma znaczenie.

Jak diagnozujesz regresję latencji w produkcji?

mediumlatencyincidenttracing

Otwórz pytanie

Odpowiedź

Zacznij od metryk, by potwierdzić zakres (p95/p99, endpointy, regiony), potem użyj trace do znalezienia wolnych spanów i logów do szczegółów błędów lub zapytań. Porównaj ostatnie deploye i zmiany konfiguracji.

Jakie dashboardy są niezbędne dla krytycznego API?

easydashboardsredslo

Otwórz pytanie

Odpowiedź

Minimum to RED (rate, errors, duration), saturation (CPU/pamięć), zdrowie zależności i burn-rate SLO. Dodaj przekroje po trasach, regionach i wersjach.

Jak mierzysz i poprawiasz MTTR?

mediummttrincident-responsereliability

Otwórz pytanie

Odpowiedź

MTTR (Mean Time To Recovery) mierzy, jak szybko przywracasz usługę po incydencie. Poprawa to lepsza detekcja, runbooki, szybkie rollbacki i wyćwiczony incident response.

Wyjaśnij metody RED i USE oraz kiedy ich używać.

easyredusemetrics

Otwórz pytanie

Odpowiedź

RED (Rate, Errors, Duration) jest najlepsze dla usług requestowych. USE (Utilization, Saturation, Errors) pasuje do zasobów jak CPU, dysk czy kolejki. Razem pokazują zdrowie usługi i bottlenecki zasobów.