Showing posts with the label Site Reliability Engineering

Surviving the 2-Minute Warning: Zero Downtime on EKS Spot Instances

It started with a subtle anomaly in our Datadog dashboards. Every day at roughly 10:00 AM UTC—coinciding with the daily market price fluctuation in …
Surviving the 2-Minute Warning: Zero Downtime on EKS Spot Instances

Unified Observability Architecture with OpenTelemetry

In complex microservices architectures, the "Mean Time to Resolution" (MTTR) is often dominated not by fixing the bug, but by locating it…
Unified Observability Architecture with OpenTelemetry

OpenTelemetryによる統合可観測性基盤の設計

マイクロサービスアーキテクチャにおける最大の課題は、サービス間の境界を越えたトランザクションの追跡不能性にある。特定のAPIエンドポイントでレイテンシが急増した際、それがDBのロック待ちによるものか、下流サービスのGCによる停止なのか、あるいはネットワークのパケットロスなのかを即座に特定できない場合、そのシステムは「観測不能(Unobservable)」である。従来のAPM(Applicat…
OpenTelemetryによる統合可観測性基盤の設計
OlderHomeNewest