Prometheus 스토리지 부족과 SPOF, Thanos 사이드카 패턴으로 S3 장기 보관 해결하기

새벽 3시, "Disk Usage > 90%" 알림이 울립니다. 운영 중인 Kubernetes 클러스터의 메인 Prometheus 파드(Pod)가 또다시 스토리지 한계에 도달한 것입니다. 단순히 PVC(Persistent Volume Cla…
Prometheus 스토리지 부족과 SPOF, Thanos 사이드카 패턴으로 S3 장기 보관 해결하기

Prometheus Storage Full? Scaling to S3 with Thanos Sidecar

It started with a classic paging alert at 3:14 AM: DiskUsageHigh: 95% on prometheus-data . We were running a standard Prometheus setup on Kubernete…
Prometheus Storage Full? Scaling to S3 with Thanos Sidecar

Prometheusのデータ消失を防ぐ:ThanosサイドカーによるHA構成とS3長期保存の実装ログ

深夜2時にPagerDutyが鳴り響く原因のトップ3に、「監視サーバー自体のディスク枯渇」が入っている現場は少なくありません。私が担当していたEKS上の大規模なマイクロサービス環境でも、Pod数が数千規模にスケールするにつれ、PrometheusのPVC(EBS)が圧迫され、Retention…
Prometheusのデータ消失を防ぐ:ThanosサイドカーによるHA構成とS3長期保存の実装ログ

Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

Hace dos semanas, nuestro clúster de producción en Kubernetes (v1.28, ejecutándose sobre instancias AWS m5.xlarge) disparó una alerta crítica a las…
Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar