비교

Data Engineering/빅데이터

[빅데이터] csv vs parquet vs avro vs orc

csv vs parquet vs avro vs orc데이터를 저장, 처리하기 위해 csv, parquet, avro, orc 등의 다양한 파일 유형을 사용한다. 각 유형에 따라 특징이 존재하며, 데이터 처리의 성능이 달라진다. 이에 따라 파일 유형이 데이터 처리 비용과 성능을 좌우할 수 있기에 상황에 맞는 것을 선택해 활용하는 것이 중요하다. 그중에서 가장 알려져 있고, 자주 사용되는 유형인 csv, parquet, avro, orc 유형의 개념과 장단점, 유스케이스를 알아보자.대용량 데이터 저장 = 높은 비용긴 읽기/쓰기 시간 = 느린 시스템, 높은 연산 능력높은 연산 능력 = 비용 증가csv (Comma-Separated Values)# csv 파일 예시 (test.csv)timestamp,produ..

Web

[Web/Python] 동적(Dynamic)/정적(Static) 수집 방법 비교

서론 BeautifulSoup과 Selenium은 웹 스크래핑/크롤링하는 데 사용되는 Python 라이브러리이다. 두 개 모두 웹 페이지 정보를 얻기 위해 사용되는데, 언제 BeautifulSoup/Selenium을 사용해야 하는지 판단하기가 어려웠다. 이를 해결하기 위해 동적/정적 웹 페이지와 수집 방법의 개념을 이해하고, 각 라이브러리는 어떤 차이가 있는지 확인해보려고 한다. 동적 vs 정적 beautifulsoup와 selenium 사용을 구분하는 가장 중요한 요소는 "동적(dynamic)"과 "정적(static)"이다. 웹 페이지 웹 페이지는 생성될 때 HTML 내용이 고정된 "정적 웹 사이트"와 HTML 내용이 변하는 "동적 웹 사이트"로 구분한다. 정적 웹 페이지 정적 웹 페이지란 서버에 미리..

기억에 남는 블로그 닉네임
'비교' 태그의 글 목록