이산 확률 분포 모든 확률 분포는 연속 확률 분포 또는 이산 확률 분포로 분류할 수 있다. 만약 변수가 두 값 사이의 어떤 값이든 가질 수 있으면 연속 변수라고 하고, 그렇지 않으면 이산 변수라고 한다. 확률 변수가 이산적일 경우, 그 확률 분포를 이산 확률 분포라고 말한다. 기댓값 함수 기댓값 함수를 사용해서 하루 평균 몇 마리의 피카츄를 잡을 수 있는지 계산할 수 있다. 각 xi에 피카츄를 잡을 수 있을 것으로 기대하는 확률 p + i를 곱해주고, 그 값들을 모두 더한다. E(x) = 0.2143*30 + 0.1429*40 + 0.2857*50 + 0.1429*60 + 0.1429*70 + 0.0714*80 = 50.719 평균적으로 하루에 51마리의 피카츄를 잡을 것으로 기대된다는 것이며, 동시에 ..
개요 텍스트 데이터 정제는 데이터 과학과 머신러닝에서의 대표적인 전처리 작업이다. 이는 불용어 처리, 대문자와 특수문자 처리 등 덜 유용한 부분을 제거하는 과정을 포함한다. 불용어는 'the', 'a', 'an', 'in' 등 원하는 결과를 얻는데 불필요한 단어들을 말한다. 지금은 카프카의 저서인 '변신'의 텍스트를 정제해볼 것이다. 우선 파일을 열고 머리말과 꼬리말 정보를 삭제하고 'metamorphosis_clean.txt'라는 이름으로 파일을 저장하였다. 1) 데이터 미리 살펴보기 크기와 구조 같은 주요 특징을 살펴보면서 문장, 단락, 텍스트가 어떻게 이루어졌는지 확인한다. '변신'의 경우에는 눈에 띄는 오타나 실수가 없다. 반점, 아포스트로피, 따옴표, 물음표 등의 문장 부호가 있다 전반적으로 단..
개발 환경 준비 SQL이 작동하기 위해서 특정 종류의 데이터베이스가 필요하다. SQLite는 모바일 앱 저장소와 개발에 주로 사용되는 유명한 경량 데이터베이스이다. Sequel Pro, install MySQL, fire up a Laravel application 등의 도구를 사용해 쿼리를 실행할 수 있는 데이터베이스 환경을 생성할 수 있다. 테이블 생성하기 관계형 데이터베이스(MySQL, SQLite, PostgreSQL)는 테이블들로 이루어져 있다. 하나의 데이터베이스는 많은 테이블을 갖고 있고 각 테이블은 레코드의 특정 카테고리로 이루어져 있다. 많은 웹 애플리케이션에서 보통 마이그레이션을 통해 테이블을 생성하지만, SQL의 create문을 읽고 작성할 수 있으면 도움일 될 것이다. create ..
정규표현식 긴 텍스트 세트에서 찾을 수 있는 문자열이나 패턴을 표현하기 위해 구성하는 기호 또는 문자의 부분집합이다. 정규표현식을 알아야 하는 이유 텍스트 편집기에서 '찾아 바꾸기'를 사용해본 경험이 있을 것이다. 정규표현식은 이 기능을 수행할 수 있도록 도와준다. 이 기술을 익히면 텍스트 분류나 많은 양의 텍스트 데이터를 정제할 때 시간을 크게 절약할 수 있다. 정규표현식 예시 파이썬에서의 정규표현식 사용 모듈 설치 먼저 정규표현식을 사용하기 위한 모듈을 설치해주어야 한다. 표준 re 모듈은 파이썬 설치시 함께 포함되며, 고급 내장 함수를 사용하고 싶다면 regex 라이브러리를 설치하면 된다. colab 같은 경우 따로 설지해줄 필요가 없다. pip install regex # in bash !pip ..