beautifulsoup

프로젝트 단위 공부/[개인 프로젝트] 공모전 크롤링

[개인 프로젝트] 공모전 크롤링 (5) - 데이터 수집 (스크래핑) - 위비티

이전에 모델의 url을 URLField로 수정하고, 링커리어의 데이터를 스크래핑하고 저장하는 작업을 하였다. 이번에는 다른 공모전 사이트인 위비티의 데이터를 스크래핑하고 저장하는 작업을 진행한다. [개인 프로젝트] 공모전 크롤링 (4) - 데이터 수집 (스크래핑) - 링커리어이전에 mainpage app 생성 및 로컬 페이지에서 접속 가능하도록 코드를 작성하였고, ERD를 바탕으로 models를 생성하였다. 이번에는 스크래핑을 통해 데이터 수집을 진행할 것이다. 여러 개의 사이트sanseo.tistory.com데이터 수집 - 위비티링커리어 페이지는 동적 웹 페이지였기 때문에 불가피하게 selenium을 사용하여 스크래핑을 진행하였다. 그러나 위비티는 정적 웹 페이지이기 때문에 속도가 더 빠른 Beauti..

Web

[Web/Python] 동적(Dynamic)/정적(Static) 수집 방법 비교

서론 BeautifulSoup과 Selenium은 웹 스크래핑/크롤링하는 데 사용되는 Python 라이브러리이다. 두 개 모두 웹 페이지 정보를 얻기 위해 사용되는데, 언제 BeautifulSoup/Selenium을 사용해야 하는지 판단하기가 어려웠다. 이를 해결하기 위해 동적/정적 웹 페이지와 수집 방법의 개념을 이해하고, 각 라이브러리는 어떤 차이가 있는지 확인해보려고 한다. 동적 vs 정적 beautifulsoup와 selenium 사용을 구분하는 가장 중요한 요소는 "동적(dynamic)"과 "정적(static)"이다. 웹 페이지 웹 페이지는 생성될 때 HTML 내용이 고정된 "정적 웹 사이트"와 HTML 내용이 변하는 "동적 웹 사이트"로 구분한다. 정적 웹 페이지 정적 웹 페이지란 서버에 미리..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 10일 차] 데이터 엔지니어링 : 파이썬으로 웹 데이터를 크롤하고 분석하기 (5)

시각화 라이브러리, Seaborn 스크래핑의 결과는 대부분 텍스트로 이루어져 있다. 그런데 텍스트 만으로 확인하기에는 인사이트를 얻기에 무리가 있다. 이러한 정보를 요약해서 한눈에 보여주는 방법으로 시각화(Visualization)를 활용한다. Seaborn 라이브러리 matplotlib을 기반으로 하는 시각화 라이브러리이다. 다양한 그래프를 고수준(high-level) 즉, 짧은 코드로도 품질 좋은 시각화를 진행할 수 있다. Seaborn 설치 및 불러오기 %pip install seaborn import seaborn as sns 꺾은선 그래프(Line Plot) lineplot을 통해 꺾은선 그래프를 그릴 수 있다. sns.lineplot(x=[1, 3, 2, 4], y=[4, 3, 2, 1]) 막..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 8일 차] 데이터 엔지니어링 : 파이썬으로 웹 데이터를 크롤하고 분석하기 (3)

HTML을 분석해 주는 BeautifulSoup BeautifulSoup 라이브러리 지난 실습에서 requests 모듈을 이용해 HTTP 요청을 보내고, 응답을 받았다. 그런데 res.body의 결과를 확인했을 때, 긴 텍스트 형식이라서 분석하기 힘들었다. 이를 해결하기 위해 HTML 코드를 분석해 주는 HTML Parser를 사용할 수 있는데, 가장 유명한 것이 BeautifulSoup4이다. BeautifulSoup4 설치 %pip install bs4 requests 모듈로 데이터 받기 # www.example.com 사이트를 요청한 후 응답 받아보기 import requests res = requests.get("https://www.example.com") res.text bs4 선언 및 사용 ..

기억에 남는 블로그 닉네임
'beautifulsoup' 태그의 글 목록