Observability

Showing posts with the label Observability

Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

5 Jan 2026 Post a Comment

Hace dos semanas, nuestro clúster de producción en Kubernetes (v1.28, ejecutándose sobre instancias AWS m5.xlarge) disparó una alerta crítica a las 3:00 AM: DiskPressure en el nodo que alojaba nue…

DevOps es Kubernetes Observability Prometheus Thanos

Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

Linuxカーネルランタイム拡張技術eBPFによる低レイテンシネットワーク構築

10 Dec 2025 Post a Comment

プロダクション環境において、マイクロサービスの通信レイテンシが突発的に上昇する現象に遭遇した際、従来のLinuxネットワークスタック（iptablesやconntrack）がボトルネックとなるケースが増加しています。数万規模のKubernetes Serviceが存在する場合、iptablesのルールセット更新はO(N)の複雑度を持ち、パケットごとのルール評価がCPUリソースを枯渇させます。さ…

Cilium eBPF ja Kubernetes Linux Kernel Network Optimization Observability XDP

오픈텔레메트리 기반 통합 관측가능성 아키텍처

8 Dec 2025 Post a Comment

마이크로서비스 환경에서 500 Internal Server Error 가 발생했을 때, 가장 큰 비용은 '수정'이 아니라 '원인 파악'에 소모됩니다. 서비스 A의 로그에는 에러가 없는데 서비스 B는 타임아웃을 뱉고, 서비스 C의 DB 커넥션 풀이 고갈되는 현상. 이를 해결하기 위해 개발자는 Kibana(로그), Grafan…

APM Distributed Tracing Jaeger ko Microservices Observability OpenTelemetry Prometheus

Unified Observability Architecture with OpenTelemetry

8 Dec 2025 Post a Comment

In complex microservices architectures, the "Mean Time to Resolution" (MTTR) is often dominated not by fixing the bug, but by locating it. A common scenario involves a HTTP 502 Bad Gatewa…

DevOps Distributed Systems en Microservices Observability OpenTelemetry Site Reliability Engineering