AQE

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 77일 차] Spark, SparkML 실습 (2)

2024.07.09

Spark Shuffling 최적화Repartition and CoalesceRepartition을 하는 이유전체적으로 파티션의 수를 늘려 병렬성 증대굉장히 큰 Partition이나 Skew Partition의 크기를 조절파티션을 분석 패턴에 맞게 재분배 (Write once, read many)어떤 DataFrame을 특정 컬럼을 기준으로 그루핑 하거나 필터링을 자주 하는 경우미리 그 컬럼을 기준으로 저장해 두었다면, 그것이 BucketingRepartition 방식두 가지 방식 존재repartition (Hash)repartitionByRange (value 기준)주의할 점Shuffling 발생 : Repartition이 별 이유 없이 사용되면 오히려 시간과 비용 증가Column이 사용되면 균등한 파..

[TIL - 77일 차] Spark, SparkML 실습 (2)

티스토리툴바