Showing posts with the label オブザーバビリティ

Prometheusのデータ消失を防ぐ:ThanosサイドカーによるHA構成とS3長期保存の実装ログ

深夜2時にPagerDutyが鳴り響く原因のトップ3に、「監視サーバー自体のディスク枯渇」が入っている現場は少なくありません。私が担当していたEKS上の大規模なマイクロサービス環境でも、Pod数が数千規模にスケールするにつれ、PrometheusのPVC(EBS)が圧迫され、Retention(保持期間)を15日まで短縮せざるを得ない状況に追い込まれました。さらに最悪なことに、Availab…
Prometheusのデータ消失を防ぐ:ThanosサイドカーによるHA構成とS3長期保存の実装ログ

そのアラートは氷山の一角?監視とオブザーバビリティの本質的な違い

深夜2時、あなたの携帯がけたたましく鳴る。「CPU使用率95%超過」という自動化されたアラート。あなたはベッドから飛び起き、ラップトップを開き、慣れた手順でサーバーにSSH接続し、プロセスを再起動する。アラートは止み、問題は「解決」したかのように見える。しかし、翌朝のチームミーティングで「なぜCPU使用率が急上昇したのか?」という根本的な問いに、あなたは明確に答えることができない。「おそらく…
そのアラートは氷山の一角?監視とオブザーバビリティの本質的な違い
OlderHomeNewest