Showing posts with the label Data Engineering

7 Ways to Prevent Elasticsearch Mapping Explosions and Optimize Shard Sizing

Large-scale log clusters often crash not because of data volume, but because of metadata mismanagement. When every unique log key becomes a searchab…
7 Ways to Prevent Elasticsearch Mapping Explosions and Optimize Shard Sizing

Cómo evitar explosiones de mapeo y optimizar shards en clústeres de logs

Gestionar clústeres de Elasticsearch a gran escala sin un control estricto del esquema garantiza fallos críticos de memoria y degradación del rendim…
Cómo evitar explosiones de mapeo y optimizar shards en clústeres de logs

Apache Spark Tuning: Killing Data Skew & Mastering Broadcast Joins

There is no pain in Data Engineering quite like watching a Spark job race to 99% completion in 5 minutes, only to hang on the final task for 4 hou…
Apache Spark Tuning: Killing Data Skew & Mastering Broadcast Joins

Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins

Pasé 3 días depurando un job de Procesamiento Big Data que tardaba 4 horas en ejecutarse y fallaba sistemáticamente en el último 1%. El síntoma er…
Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins
OlderHomeNewest