Showing posts with the label spark

Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins

Pasé 3 días depurando un job de Procesamiento Big Data que tardaba 4 horas en ejecutarse y fallaba sistemáticamente en el último 1%. El síntoma er…
Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins
OlderHomeNewest