서론 BeautifulSoup과 Selenium은 웹 스크래핑/크롤링하는 데 사용되는 Python 라이브러리이다. 두 개 모두 웹 페이지 정보를 얻기 위해 사용되는데, 언제 BeautifulSoup/Selenium을 사용해야 하는지 판단하기가 어려웠다. 이를 해결하기 위해 동적/정적 웹 페이지와 수집 방법의 개념을 이해하고, 각 라이브러리는 어떤 차이가 있는지 확인해보려고 한다. 동적 vs 정적 beautifulsoup와 selenium 사용을 구분하는 가장 중요한 요소는 "동적(dynamic)"과 "정적(static)"이다. 웹 페이지 웹 페이지는 생성될 때 HTML 내용이 고정된 "정적 웹 사이트"와 HTML 내용이 변하는 "동적 웹 사이트"로 구분한다. 정적 웹 페이지 정적 웹 페이지란 서버에 미리..
서론 데브코스 : 데이터 엔지니어링을 수강하면서 동적 웹 스크래핑을 진행하기 위한 Selenium 라이브러리를 배웠다. 강의에서 배운 내용을 다시 한번 활용해 보며, 익숙해지기 위해 해당 프로젝트(?)를 진행하였다. 단지 몇 시간 동안 들은 강의이고, 웹 관련 배경 지식이 없기 때문에 올바른 코드인지 확신할 수는 없지만, 강의 내용을 복습하는 것에 의의를 두려고 한다. 그래서 진행할 프로젝트는 무난하게 진행할 수 있는 영화 사이트의 리뷰를 스크래핑 및 시각화이다. 작성한 코드를 설명하고, 왜 해당 코드를 작성하였는지 설명하는 방식으로 진행할 것이다. 개발 환경 : Colab - Python 라이브러리 : Selenium, wordcloud, matplotlib, seaborn, collections, k..
브라우저 자동화하기, Selenium Selenium 라이브러리 Selenium은 Python을 이용해 웹 브라우저를 조작할 수 있는 자동화 프레임워크이다. Selenium, Web Driver 설치 Selenium 프레임워크와 웹 브라우저와 연동하기 위한 WebDriver를 설치한다. WebDriver는 웹 브라우저를 제어할 수 있는 자동화 프레임워크로, 이 실습에서는 Chrome을 기준으로 진행한다. %pip install selenium %pip install webdriver-manager WebDriver의 Chrome() 객체 생성 from selenium import webdriver from selenium.webdriver.chrome.service import Service from w..