Boas praticas para implementar observabilidade full-stack no Kubernetes com Prometheus, Loki, Tempo e Alertmanager.
Sem observabilidade, operar clusters Kubernetes e uma pilotagem as cegas. Veja os problemas mais comuns em ambientes sem monitoramento adequado.
Pods reiniciam em loop, CPU satura, memoria vaza. Sem metricas, voce so descobre quando o cliente reclama.
Cada pod gera stdout/stderr em seu container. Sem centralizacao, debugar um fluxo entre 20 microsservicos leva horas.
Tempo medio de resolucao acima de 2 horas em incidentes criticos. Sem alertas proativos, a resposta e sempre reativa.
Requisicoes cruzam API Gateway, 5 servicos e 2 filas. Sem tracing distribuido, encontrar o gargalo e impossivel.
Pods alocam mais recursos do que usam. Sem metricas de utilizacao, voce paga 3x mais do que precisa em cloud.
Anomalias de trafego, pods comprometidos, escalacoes suspeitas. Sem monitoramento de seguranca, breaches passam despercebidos.
Uma stack completa de observabilidade exige cobertura em metricas, logs, tracing e alertas. Cada pilar resolve um problema especifico.
Prometheus coleta metricas numericas de cada componente do cluster via scraping HTTP. Armazena em TSDB local com retencao configuravel e expoe dados via PromQL, a linguagem de query mais poderosa para metricas de infraestrutura.
Loki centraliza todos os logs do cluster usando Promtail como agent. Diferente do Elasticsearch, Loki indexa apenas labels (nao o conteudo), tornando-o 10x mais barato em storage. LogQL permite filtrar e agregar logs em tempo real.
Tempo armazena traces distribuidos que mapeiam o caminho completo de cada requisicao entre microsservicos. Integra com OpenTelemetry, Jaeger e Zipkin. No Grafana, voce visualiza waterfall de spans com latencia de cada servico.
Alertmanager recebe alertas do Prometheus, deduplica, agrupa e roteia para Slack, PagerDuty ou Webhooks. Com alertas bem configurados, voce antecipa incidentes antes que impactem usuarios. Integra com runbooks e rollback automatico.
Visao end-to-end do fluxo de dados: do Kubernetes ate os dashboards no Grafana, passando por coleta, armazenamento e alertas.
Pods, Nodes, Services
Scraping + TSDB
Log aggregation
Distributed tracing
Dashboards unificados
Fluxo: K8s exporta metricas/logs/traces → Prometheus/Loki/Tempo armazenam → Grafana visualiza → Alertmanager notifica
A melhor pratica para instalar a stack completa no Kubernetes e usando o Helm chart oficial da Grafana. Um unico comando instala Prometheus, Loki, Tempo e Grafana pré-configurados.
Stack completa de observabilidade em um unico Helm chart com valores customizaveis para producao.
Apos instalar a stack, estes sao os dashboards que toda equipe SRE/DevOps precisa ter no Grafana desde o dia zero.
Utilizacao de CPU por pod/container, deteccao de throttling, requests vs limits e recomendacoes de right-sizing.
rate(container_cpu_usage_seconds_total[5m])
container_cpu_cfs_throttled_periods_total
Working set, RSS, cache, deteccao de memory leaks progressivos e historico de OOMKills por deployment.
container_memory_working_set_bytes
kube_pod_container_status_last_terminated_reason
Status dos pods (Running, Pending, Failed), restart count, readiness/liveness probe failures e crashloops.
kube_pod_status_phase
kube_pod_container_status_restarts_total
Throughput de rede por pod, latencia de Ingress, error rates HTTP (5xx/4xx) e conexoes ativas por servico.
container_network_receive_bytes_total
nginx_ingress_controller_requests
Agende uma consulta gratuita com nossos especialistas em SRE e DevOps. Montamos a stack completa de monitoramento sob medida para seu cluster.