[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)
[TIL - 64일 차] 하둡과 Spark (4)
Spark 내부동작Spark 파일 포맷작업에 맞는 파일 최적화 필요Unstructured (비구조화) : TextSemi-structured (반구조화) : json, xml, csvStructured (구조화) : parquet, avro, orc, sequencefileSpark의 주요 파일 포맷Splittable : HDFS 데이터 블록의 Partition으로 바로 올라갈 수 있는지 여부Human readable : 사람이 읽을 수 있는지 여부Nested structure support : subfield를 지원하는지 여부Schema evolution : 스키마가 다른 데이터끼리 사용 가능한지 여부ParquetSpark의 기본 파일 포맷Hybrid Storage 방식하나의 데이터 블록은 하나의 Ro..