Showing posts with the label Observability

Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

Hace dos semanas, nuestro clúster de producción en Kubernetes (v1.28, ejecutándose sobre instancias AWS m5.xlarge) disparó una alerta crítica a las 3:00 AM: DiskPressure en el nodo que alojaba nue…
Prometheus HA: De discos llenos a retención infinita con Thanos Sidecar

Linuxカーネルランタイム拡張技術eBPFによる低レイテンシネットワーク構築

プロダクション環境において、マイクロサービスの通信レイテンシが突発的に上昇する現象に遭遇した際、従来のLinuxネットワークスタック(iptablesやconntrack)がボトルネックとなるケースが増加しています。数万規模のKubernetes Serviceが存在する場合、iptablesのルールセット更新はO(N)の複雑度を持ち、パケットごとのルール評価がCPUリソースを枯渇させます。さ…
Linuxカーネルランタイム拡張技術eBPFによる低レイテンシネットワーク構築

오픈텔레메트리 기반 통합 관측가능성 아키텍처

마이크로서비스 환경에서 500 Internal Server Error 가 발생했을 때, 가장 큰 비용은 '수정'이 아니라 '원인 파악'에 소모됩니다. 서비스 A의 로그에는 에러가 없는데 서비스 B는 타임아웃을 뱉고, 서비스 C의 DB 커넥션 풀이 고갈되는 현상. 이를 해결하기 위해 개발자는 Kibana(로그), Grafan…
오픈텔레메트리 기반 통합 관측가능성 아키텍처

Unified Observability Architecture with OpenTelemetry

In complex microservices architectures, the "Mean Time to Resolution" (MTTR) is often dominated not by fixing the bug, but by locating it. A common scenario involves a HTTP 502 Bad Gatewa…
Unified Observability Architecture with OpenTelemetry
OlderHomeNewest