오블완

Data Engineering/빅데이터

[빅데이터] csv vs parquet vs avro vs orc

csv vs parquet vs avro vs orc데이터를 저장, 처리하기 위해 csv, parquet, avro, orc 등의 다양한 파일 유형을 사용한다. 각 유형에 따라 특징이 존재하며, 데이터 처리의 성능이 달라진다. 이에 따라 파일 유형이 데이터 처리 비용과 성능을 좌우할 수 있기에 상황에 맞는 것을 선택해 활용하는 것이 중요하다. 그중에서 가장 알려져 있고, 자주 사용되는 유형인 csv, parquet, avro, orc 유형의 개념과 장단점, 유스케이스를 알아보자.대용량 데이터 저장 = 높은 비용긴 읽기/쓰기 시간 = 느린 시스템, 높은 연산 능력높은 연산 능력 = 비용 증가csv (Comma-Separated Values)# csv 파일 예시 (test.csv)timestamp,produ..

Data Engineering/Airflow

[Airflow] S3ToRedshiftOperator 사용 예시

S3ToRedshiftOperator 사용 예시Airflow에서 S3에 존재하는 파일을 Redshift로 COPY 하는 방법은 크게 두 가지 방식이 있다. S3ToRedshiftOperator는 파라미터 정보만 적어주면 되므로 실제 쿼리 작업이 필요한 Hook 사용 방식보다 간편하게 사용할 수 있다. S3Hook과 PostgresHook을 활용해 S3와 Redshift를 각각 연결한 뒤 COPY Query 실행S3ToRedshiftOperator를 사용한 간단하게 COPYS3ToRedshiftOperator 사용 예시라이브러리 선언from airflow.providers.amazon.aws.transfers.s3_to_redshift import S3ToRedshiftOperatorS3ToRedshift..

기억에 남는 블로그 닉네임
'오블완' 태그의 글 목록 (6 Page)