확률 변수 확률과 통계학에서 확률 변수(random variable)는 모두 가능한 값이 랜덤 현상의 결과인 변수를 말한다. 확률 변수는 이산적이거나 연속적인데, 이산적이라는 의미는 확률 변수의 확률 분포가 확률 질량 함수 특성을 가지고 있어 유한 개 혹은 셀 수 있는 수의 들 중에서 하나를 취할 수 있다는 뜻이다. 연속적이라는 의미는 확률 변수의 확률 분포가 확률 밀도 함수 특성을 가지고 있어 구간이나 구간 집합에서 임의의 값을 취할 수 있다는 뜻이다. 이산 확률 분포 확률 변수는 예측할 수 없는 확률 과정의 결과를 수량, 특히 실수와 매핑하는 함수로 정의한다. 확률 변수는 함수의 입력값으로 들어가는 기저 확률 과정의 결과에 의존한다는 점에서(특히, 종속 변수)이며, 기저 확률 과정이 확률적이라는 점에..
이산 확률 분포 모든 확률 분포는 연속 확률 분포 또는 이산 확률 분포로 분류할 수 있다. 만약 변수가 두 값 사이의 어떤 값이든 가질 수 있으면 연속 변수라고 하고, 그렇지 않으면 이산 변수라고 한다. 확률 변수가 이산적일 경우, 그 확률 분포를 이산 확률 분포라고 말한다. 기댓값 함수 기댓값 함수를 사용해서 하루 평균 몇 마리의 피카츄를 잡을 수 있는지 계산할 수 있다. 각 xi에 피카츄를 잡을 수 있을 것으로 기대하는 확률 p + i를 곱해주고, 그 값들을 모두 더한다. E(x) = 0.2143*30 + 0.1429*40 + 0.2857*50 + 0.1429*60 + 0.1429*70 + 0.0714*80 = 50.719 평균적으로 하루에 51마리의 피카츄를 잡을 것으로 기대된다는 것이며, 동시에 ..
개요 텍스트 데이터 정제는 데이터 과학과 머신러닝에서의 대표적인 전처리 작업이다. 이는 불용어 처리, 대문자와 특수문자 처리 등 덜 유용한 부분을 제거하는 과정을 포함한다. 불용어는 'the', 'a', 'an', 'in' 등 원하는 결과를 얻는데 불필요한 단어들을 말한다. 지금은 카프카의 저서인 '변신'의 텍스트를 정제해볼 것이다. 우선 파일을 열고 머리말과 꼬리말 정보를 삭제하고 'metamorphosis_clean.txt'라는 이름으로 파일을 저장하였다. 1) 데이터 미리 살펴보기 크기와 구조 같은 주요 특징을 살펴보면서 문장, 단락, 텍스트가 어떻게 이루어졌는지 확인한다. '변신'의 경우에는 눈에 띄는 오타나 실수가 없다. 반점, 아포스트로피, 따옴표, 물음표 등의 문장 부호가 있다 전반적으로 단..
개발 환경 준비 SQL이 작동하기 위해서 특정 종류의 데이터베이스가 필요하다. SQLite는 모바일 앱 저장소와 개발에 주로 사용되는 유명한 경량 데이터베이스이다. Sequel Pro, install MySQL, fire up a Laravel application 등의 도구를 사용해 쿼리를 실행할 수 있는 데이터베이스 환경을 생성할 수 있다. 테이블 생성하기 관계형 데이터베이스(MySQL, SQLite, PostgreSQL)는 테이블들로 이루어져 있다. 하나의 데이터베이스는 많은 테이블을 갖고 있고 각 테이블은 레코드의 특정 카테고리로 이루어져 있다. 많은 웹 애플리케이션에서 보통 마이그레이션을 통해 테이블을 생성하지만, SQL의 create문을 읽고 작성할 수 있으면 도움일 될 것이다. create ..