Showing posts with the label Prometheus

Prometheus 스토리지 부족과 SPOF, Thanos 사이드카 패턴으로 S3 장기 보관 해결하기

새벽 3시, "Disk Usage > 90%" 알림이 울립니다. 운영 중인 Kubernetes 클러스터의 메인 Prometheus 파드(Pod)가 또다시 스토리지 한계에 도달한 것입니다. 단순히 PVC(Persistent Volume Cla…
Prometheus 스토리지 부족과 SPOF, Thanos 사이드카 패턴으로 S3 장기 보관 해결하기

Prometheus Storage Full? Scaling to S3 with Thanos Sidecar

It started with a classic paging alert at 3:14 AM: DiskUsageHigh: 95% on prometheus-data . We were running a standard Prometheus setup on Kubernete…
Prometheus Storage Full? Scaling to S3 with Thanos Sidecar

Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

Hace dos semanas, nuestro clúster de producción en Kubernetes (v1.28, ejecutándose sobre instancias AWS m5.xlarge) disparó una alerta crítica a las…
Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

오픈텔레메트리 기반 통합 관측가능성 아키텍처

마이크로서비스 환경에서 500 Internal Server Error 가 발생했을 때, 가장 큰 비용은 '수정'이 아니라 '원인 파악'에 소모됩니다. 서비스 A의 로그에는 에러가 없는데 서비스 B는 타임아웃을 뱉고, 서비스 C의 DB 커넥션 풀이 고갈되는 현상. 이를 해결하기 위해 개발자는 Kibana(로그), Grafan…
오픈텔레메트리 기반 통합 관측가능성 아키텍처
OlderHomeNewest