Apache Spark 성능 최적화: 악명 높은 Skewed Partition 해결과 Broadcast Join 전략
Spark 작업 모니터링 중 가장 고통스러운 순간은 200개의 태스크 중 199개가 5분 만에 끝났는데, 마지막 1개의 태스크가 4시간 동안 도는 것 을 지켜볼 때다. 이는 전형적인 Data Skew (데이터 편향) 현상이다. 수십 TB 규모의 빅데이터 처리 파이프라인에서 이 병목을 해결하지 못하면 클러스터 리소스 비용은 기하급수적으로 늘어난다. 본…