Showing posts with the label SRE

쿠버네티스 OOMKilled 해결: Go pprof 메모리 누수 분석 및 최적화

운영 중인 파드(Pod)가 별다른 로그 없이 Restart 횟수만 늘어가고, kubectl describe pod 명령어로 확인했을 때 Exit Code 137 (OOMKilled) 가 찍혀 있다면, 이는 애플리케이션이 할당된 메모리 한계(Limit)를 초과했음…
쿠버네티스 OOMKilled 해결: Go pprof 메모리 누수 분석 및 최적화

프로덕션 환경의 불확실성을 제어하는 카오스 엔지니어링 구현

분산 시스템에서 실패는 '만약(If)'의 문제가 아니라 '언제(When)'의 문제입니다. MSA(Microservices Architecture) 환경에서 결제 서비스의 300ms 지연이 주문 서비스의 스레드 풀 고갈(Thread Pool Exhaustion)로 이어지고, 이것이 결국 전체 플랫폼의 503 Service U…
프로덕션 환경의 불확실성을 제어하는 카오스 엔지니어링 구현

Production-Grade Chaos Engineering for Distributed Systems

Consider a standard microservices deployment where the CheckoutService depends on an InventoryService . During a routine traffic spike, the 99th p…
Production-Grade Chaos Engineering for Distributed Systems

Kubernetes環境におけるカオスエンジニアリング実装と回復弾力性検証

深夜2時、PagerDutyのアラートが鳴り響きます。原因はデータベースのCPUスパイクではなく、重要度の低いサードパーティAPIの応答遅延でした。たった200msのレイテンシ増加が、メインサービスのコネクションプールを枯渇させ、連鎖的な障害(Cascading Failure)を引き起こし、…
Kubernetes環境におけるカオスエンジニアリング実装と回復弾力性検証
OlderHomeNewest