Showing posts with the label pyspark

Apache Spark 성능 최적화: 악명 높은 Skewed Partition 해결과 Broadcast Join 전략

Spark 작업 모니터링 중 가장 고통스러운 순간은 200개의 태스크 중 199개가 5분 만에 끝났는데, 마지막 1개의 태스크가 4시간 동안 도는 것 을 지켜볼 때다. 이는 전형적인 Data Skew (데이터 편향) 현상이다. 수십 TB 규모의 빅데이터 처리 파…
Apache Spark 성능 최적화: 악명 높은 Skewed Partition 해결과 Broadcast Join 전략

Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins

Pasé 3 días depurando un job de Procesamiento Big Data que tardaba 4 horas en ejecutarse y fallaba sistemáticamente en el último 1%. El síntoma er…
Optimización Spark: Cómo eliminé el Sesgo de Datos (Data Skew) y dominé los Broadcast Joins
OlderHomeNewest