csv vs parquet vs avro vs orc데이터를 저장, 처리하기 위해 csv, parquet, avro, orc 등의 다양한 파일 유형을 사용한다. 각 유형에 따라 특징이 존재하며, 데이터 처리의 성능이 달라진다. 이에 따라 파일 유형이 데이터 처리 비용과 성능을 좌우할 수 있기에 상황에 맞는 것을 선택해 활용하는 것이 중요하다. 그중에서 가장 알려져 있고, 자주 사용되는 유형인 csv, parquet, avro, orc 유형의 개념과 장단점, 유스케이스를 알아보자.대용량 데이터 저장 = 높은 비용긴 읽기/쓰기 시간 = 느린 시스템, 높은 연산 능력높은 연산 능력 = 비용 증가csv (Comma-Separated Values)# csv 파일 예시 (test.csv)timestamp,produ..
이번에는 FC Online API를 requests 모듈을 사용해 스크래핑하여 S3 버킷에 저장하는 Python 코드를 작성할 것이다. 데이터 저장은 csv 파일에 진행되고, S3에서 파일을 가져와 아래에 덧붙이는 방식이다. [개인 프로젝트] FC Online 공식 경기 분석 (1) - 계획서프로젝트 계획'서울시 상권 대시보드' 프로젝트를 진행하면서 아쉬웠던 점이 자동화를 구현하지 못했던 것이다. 또한 지금까지 API를 사용해서 프로젝트를 진행해 본 적이 없었다. 그래서 이번sanseo.tistory.comS3 버킷 & IAM 사용자 생성스크래핑을 진행하여 만들어진 csv 파일을 저장할 S3 버킷을 생성하고, Python에서 연결할 수 있도록 IAM 사용자를 생성할 것이다. S3에 대해 간단히 알고 싶다..
이전에 메인 페이지 html/css 작업까지 완료하였다. 이번에는 스크래핑한 데이터를 csv로 저장하는 작업과 임시로 표시해 뒀던 부분에 실제 공모전의 제목과 날짜가 표시되도록 할 것이다. [개인 프로젝트] 공모전 크롤링 (7) - 메인 페이지 (프론트)이전에 씽굿을 스크래핑하고 저장하는 작업을 진행하였다. 데이터 수집까지 모두 완료되었으므로 이제 프론트 작업을 진행한다. 이번에는 메인페이지의 코드를 작성할 것이다. [개인 프로젝트sanseo.tistory.com스크래핑 데이터를 csv로 저장이전에 작성했던 스크래핑 저장 코드는 직접적으로 데이터베이스에 저장하는 방식으로 작성되었다. 그런데 외부 데이터베이스가 아닌 내부 데이터베이스를 쓰기 때문에 만약 다른 사용자가 사용할 때, 무조건 스크래핑 작업을 거..