csv

Data Engineering/빅데이터

[빅데이터] csv vs parquet vs avro vs orc

csv vs parquet vs avro vs orc데이터를 저장, 처리하기 위해 csv, parquet, avro, orc 등의 다양한 파일 유형을 사용한다. 각 유형에 따라 특징이 존재하며, 데이터 처리의 성능이 달라진다. 이에 따라 파일 유형이 데이터 처리 비용과 성능을 좌우할 수 있기에 상황에 맞는 것을 선택해 활용하는 것이 중요하다. 그중에서 가장 알려져 있고, 자주 사용되는 유형인 csv, parquet, avro, orc 유형의 개념과 장단점, 유스케이스를 알아보자.대용량 데이터 저장 = 높은 비용긴 읽기/쓰기 시간 = 느린 시스템, 높은 연산 능력높은 연산 능력 = 비용 증가csv (Comma-Separated Values)# csv 파일 예시 (test.csv)timestamp,produ..

프로젝트 단위 공부/[개인 프로젝트] FC Online 공식 경기 분석

[개인 프로젝트] FC Online 공식 경기 분석 (2) - S3 버킷 생성 및 스크래핑 코드 작성

이번에는 FC Online API를 requests 모듈을 사용해 스크래핑하여 S3 버킷에 저장하는 Python 코드를 작성할 것이다. 데이터 저장은 csv 파일에 진행되고, S3에서 파일을 가져와 아래에 덧붙이는 방식이다. [개인 프로젝트] FC Online 공식 경기 분석 (1) - 계획서프로젝트 계획'서울시 상권 대시보드' 프로젝트를 진행하면서 아쉬웠던 점이 자동화를 구현하지 못했던 것이다. 또한 지금까지 API를 사용해서 프로젝트를 진행해 본 적이 없었다. 그래서 이번sanseo.tistory.comS3 버킷 & IAM 사용자 생성스크래핑을 진행하여 만들어진 csv 파일을 저장할 S3 버킷을 생성하고, Python에서 연결할 수 있도록 IAM 사용자를 생성할 것이다. S3에 대해 간단히 알고 싶다..

프로젝트 단위 공부/[개인 프로젝트] 공모전 크롤링

[개인 프로젝트] 공모전 크롤링 (8) - 메인 페이지(공모전 표시), 데이터 csv 저장

이전에 메인 페이지 html/css 작업까지 완료하였다. 이번에는 스크래핑한 데이터를 csv로 저장하는 작업과 임시로 표시해 뒀던 부분에 실제 공모전의 제목과 날짜가 표시되도록 할 것이다. [개인 프로젝트] 공모전 크롤링 (7) - 메인 페이지 (프론트)이전에 씽굿을 스크래핑하고 저장하는 작업을 진행하였다. 데이터 수집까지 모두 완료되었으므로 이제 프론트 작업을 진행한다. 이번에는 메인페이지의 코드를 작성할 것이다. [개인 프로젝트sanseo.tistory.com스크래핑 데이터를 csv로 저장이전에 작성했던 스크래핑 저장 코드는 직접적으로 데이터베이스에 저장하는 방식으로 작성되었다. 그런데 외부 데이터베이스가 아닌 내부 데이터베이스를 쓰기 때문에 만약 다른 사용자가 사용할 때, 무조건 스크래핑 작업을 거..

기억에 남는 블로그 닉네임
'csv' 태그의 글 목록