서론 데브코스 : 데이터 엔지니어링을 수강하면서 동적 웹 스크래핑을 진행하기 위한 Selenium 라이브러리를 배웠다. 강의에서 배운 내용을 다시 한번 활용해 보며, 익숙해지기 위해 해당 프로젝트(?)를 진행하였다. 단지 몇 시간 동안 들은 강의이고, 웹 관련 배경 지식이 없기 때문에 올바른 코드인지 확신할 수는 없지만, 강의 내용을 복습하는 것에 의의를 두려고 한다. 그래서 진행할 프로젝트는 무난하게 진행할 수 있는 영화 사이트의 리뷰를 스크래핑 및 시각화이다. 작성한 코드를 설명하고, 왜 해당 코드를 작성하였는지 설명하는 방식으로 진행할 것이다. 개발 환경 : Colab - Python 라이브러리 : Selenium, wordcloud, matplotlib, seaborn, collections, k..
시각화 라이브러리, Seaborn 스크래핑의 결과는 대부분 텍스트로 이루어져 있다. 그런데 텍스트 만으로 확인하기에는 인사이트를 얻기에 무리가 있다. 이러한 정보를 요약해서 한눈에 보여주는 방법으로 시각화(Visualization)를 활용한다. Seaborn 라이브러리 matplotlib을 기반으로 하는 시각화 라이브러리이다. 다양한 그래프를 고수준(high-level) 즉, 짧은 코드로도 품질 좋은 시각화를 진행할 수 있다. Seaborn 설치 및 불러오기 %pip install seaborn import seaborn as sns 꺾은선 그래프(Line Plot) lineplot을 통해 꺾은선 그래프를 그릴 수 있다. sns.lineplot(x=[1, 3, 2, 4], y=[4, 3, 2, 1]) 막..
브라우저 자동화하기, Selenium Selenium 라이브러리 Selenium은 Python을 이용해 웹 브라우저를 조작할 수 있는 자동화 프레임워크이다. Selenium, Web Driver 설치 Selenium 프레임워크와 웹 브라우저와 연동하기 위한 WebDriver를 설치한다. WebDriver는 웹 브라우저를 제어할 수 있는 자동화 프레임워크로, 이 실습에서는 Chrome을 기준으로 진행한다. %pip install selenium %pip install webdriver-manager WebDriver의 Chrome() 객체 생성 from selenium import webdriver from selenium.webdriver.chrome.service import Service from w..
HTML을 분석해 주는 BeautifulSoup BeautifulSoup 라이브러리 지난 실습에서 requests 모듈을 이용해 HTTP 요청을 보내고, 응답을 받았다. 그런데 res.body의 결과를 확인했을 때, 긴 텍스트 형식이라서 분석하기 힘들었다. 이를 해결하기 위해 HTML 코드를 분석해 주는 HTML Parser를 사용할 수 있는데, 가장 유명한 것이 BeautifulSoup4이다. BeautifulSoup4 설치 %pip install bs4 requests 모듈로 데이터 받기 # www.example.com 사이트를 요청한 후 응답 받아보기 import requests res = requests.get("https://www.example.com") res.text bs4 선언 및 사용 ..