Prometheusのデータ消失を防ぐ:ThanosサイドカーによるHA構成とS3長期保存の実装ログ 5 Jan 2026 Post a Comment 深夜2時にPagerDutyが鳴り響く原因のトップ3に、「監視サーバー自体のディスク枯渇」が入っている現場は少なくありません。私が担当していたEKS上の大規模なマイクロサービス環境でも、Pod数が数千規模にスケールするにつれ、PrometheusのPVC(EBS)が圧迫され、Retention… jaPrometheus HAThanosアーキテクチャオブザーバビリティ監視システム長期ストレージ
そのアラートは氷山の一角?監視とオブザーバビリティの本質的な違い 16 Nov 2025 Post a Comment 深夜2時、あなたの携帯がけたたましく鳴る。「CPU使用率95%超過」という自動化されたアラート。あなたはベッドから飛び起き、ラップトップを開き、慣れた手順でサーバーにSSH接続し、プロセスを再起動する。アラートは止み、問題は「解決」したかのように見える。しかし、翌朝のチームミーティングで「なぜCPU使用率が急上昇したのか?」という根本的な問いに、あなたは明確に答えることができない。「おそらく… jaSREオブザーバビリティメトリクスロギング分散トレーシング可観測性