전체 글

데이터 엔지니어링, 자동화에 관심을 갖고 공부 중입니다.
프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch1-9. 데이터 시각화하기

데이터 시각화하기 데이터 시각화는 정보와 데이터의 그래픽적인 표현이다.이는 많은 양의 정보를 분석하고 데이터 기반의 결정을 내리는 데 필수적이다. 데이터 시각화는 차트, 그래프, 맵처럼 시각적 요소를 사용하여 데이터의 트렌드, 이상치, 패턴을 알아차리고 이해하는 쉬운 방법을 제공한다. 종류로는 선 그래프, 산점도, 박스 그래프, 파이 차트 등이 있다. 시각화 작업 1) 시작 전 고려사항 변수(문자열/범주형/숫자형)와 데이터의 크기에 대해 생각한다. 시각화를 통해 답하려는 질문에 대해 생각한다. 데이터를 누가 볼 것인지와 디자인을 통해 데이터 묘사를 어떻게 최적화할 지 생각한다. 2) 기본적인 시각화 규칙 적절한 그래프 타입 선택 축에 라벨 붙이기 그래프에 제목 붙이기 서로 다른 범주들에 라벨 붙이기 흥미..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch1-7. 확률 변수

확률 변수 확률과 통계학에서 확률 변수(random variable)는 모두 가능한 값이 랜덤 현상의 결과인 변수를 말한다. 확률 변수는 이산적이거나 연속적인데, 이산적이라는 의미는 확률 변수의 확률 분포가 확률 질량 함수 특성을 가지고 있어 유한 개 혹은 셀 수 있는 수의 들 중에서 하나를 취할 수 있다는 뜻이다. 연속적이라는 의미는 확률 변수의 확률 분포가 확률 밀도 함수 특성을 가지고 있어 구간이나 구간 집합에서 임의의 값을 취할 수 있다는 뜻이다. 이산 확률 분포 확률 변수는 예측할 수 없는 확률 과정의 결과를 수량, 특히 실수와 매핑하는 함수로 정의한다. 확률 변수는 함수의 입력값으로 들어가는 기저 확률 과정의 결과에 의존한다는 점에서(특히, 종속 변수)이며, 기저 확률 과정이 확률적이라는 점에..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch1-6. 이산 확률

이산 확률 분포 모든 확률 분포는 연속 확률 분포 또는 이산 확률 분포로 분류할 수 있다. 만약 변수가 두 값 사이의 어떤 값이든 가질 수 있으면 연속 변수라고 하고, 그렇지 않으면 이산 변수라고 한다. 확률 변수가 이산적일 경우, 그 확률 분포를 이산 확률 분포라고 말한다. 기댓값 함수 기댓값 함수를 사용해서 하루 평균 몇 마리의 피카츄를 잡을 수 있는지 계산할 수 있다. 각 xi에 피카츄를 잡을 수 있을 것으로 기대하는 확률 p + i를 곱해주고, 그 값들을 모두 더한다. E(x) = 0.2143*30 + 0.1429*40 + 0.2857*50 + 0.1429*60 + 0.1429*70 + 0.0714*80 = 50.719 평균적으로 하루에 51마리의 피카츄를 잡을 것으로 기대된다는 것이며, 동시에 ..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch1-3. 텍스트 데이터 정제

개요 텍스트 데이터 정제는 데이터 과학과 머신러닝에서의 대표적인 전처리 작업이다. 이는 불용어 처리, 대문자와 특수문자 처리 등 덜 유용한 부분을 제거하는 과정을 포함한다. 불용어는 'the', 'a', 'an', 'in' 등 원하는 결과를 얻는데 불필요한 단어들을 말한다. 지금은 카프카의 저서인 '변신'의 텍스트를 정제해볼 것이다. 우선 파일을 열고 머리말과 꼬리말 정보를 삭제하고 'metamorphosis_clean.txt'라는 이름으로 파일을 저장하였다. 1) 데이터 미리 살펴보기 크기와 구조 같은 주요 특징을 살펴보면서 문장, 단락, 텍스트가 어떻게 이루어졌는지 확인한다. '변신'의 경우에는 눈에 띄는 오타나 실수가 없다. 반점, 아포스트로피, 따옴표, 물음표 등의 문장 부호가 있다 전반적으로 단..

기억에 남는 블로그 닉네임
얕게, 깊게