Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins
Pasé 3 días depurando un job de Procesamiento Big Data que tardaba 4 horas en ejecutarse y fallaba sistemáticamente en el último 1%. El síntoma era clásico: 199 tareas terminaban en segundos, pero…