nltk

Ch1-3. 텍스트 데이터 정제

2023.07.17

개요 텍스트 데이터 정제는 데이터 과학과 머신러닝에서의 대표적인 전처리 작업이다. 이는 불용어 처리, 대문자와 특수문자 처리 등 덜 유용한 부분을 제거하는 과정을 포함한다. 불용어는 'the', 'a', 'an', 'in' 등 원하는 결과를 얻는데 불필요한 단어들을 말한다. 지금은 카프카의 저서인 '변신'의 텍스트를 정제해볼 것이다. 우선 파일을 열고 머리말과 꼬리말 정보를 삭제하고 'metamorphosis_clean.txt'라는 이름으로 파일을 저장하였다. 1) 데이터 미리 살펴보기 크기와 구조 같은 주요 특징을 살펴보면서 문장, 단락, 텍스트가 어떻게 이루어졌는지 확인한다. '변신'의 경우에는 눈에 띄는 오타나 실수가 없다. 반점, 아포스트로피, 따옴표, 물음표 등의 문장 부호가 있다 전반적으로 단..

Ch1-3. 텍스트 데이터 정제

티스토리툴바