Showing posts with the label Apache Spark

Apache Spark 성능 최적화: 악명 높은 Skewed Partition 해결과 Broadcast Join 전략

Spark 작업 모니터링 중 가장 고통스러운 순간은 200개의 태스크 중 199개가 5분 만에 끝났는데, 마지막 1개의 태스크가 4시간 동안 도는 것 을 지켜볼 때다. 이는 전형적인 Data Skew (데이터 편향) 현상이다. 수십 TB 규모의 빅데이터 처리 파이프라인에서 이 병목을 해결하지 못하면 클러스터 리소스 비용은 기하급수적으로 늘어난다. 본…
Apache Spark 성능 최적화: 악명 높은 Skewed Partition 해결과 Broadcast Join 전략

Apache Spark Tuning: Killing Data Skew & Mastering Broadcast Joins

There is no pain in Data Engineering quite like watching a Spark job race to 99% completion in 5 minutes, only to hang on the final task for 4 hours. If you are staring at the Spark UI and seeing …
Apache Spark Tuning: Killing Data Skew & Mastering Broadcast Joins

Apache Spark性能チューニング:ジョブが99%で止まる「Data Skew」をSaltingで解決する

テラバイト級のログデータを処理する際、最も恐ろしいのは ジョブが99%の進捗で数時間停止する現象 だ。これは典型的な Sparkチューニング の問題であり、特定のパーティションにデータが集中する Data Skew(データの偏り) が原因であるケースが9割を占める。本稿では、プロダクション環境で発生した深刻な遅延を、Salting(ソルティング)手法とBroadcast Joinの…
Apache Spark性能チューニング:ジョブが99%で止まる「Data Skew」をSaltingで解決する
OlderHomeNewest