데이터 엔지니어링

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

DataLit : 데이터 다루기 마무리

강의평(★★★☆☆) 어휘나 맞춤법이 영어를 한국어로 번역해 작성한 것 같은 느낌이라 어색한 부분이 있음 대부분 영상이 아닌 글과 사진을 통해 진행되며, 해당 주제의 요약본을 보는 듯한 느낌 강의의 난이도는 "입문"이지만, 데이터에 무지한 사람이 본다면 이해하기가 힘들 것 같음 모든 내용을 이해한다기보다는 "이런 것들을 공부해야 하는구나!"처럼 가볍게 접근하면 좋을 것 같음 내용이 어렵고 따분하다 보니 중간에 멈추고 싶다는 생각이 많이 듦 느낀 점 파이썬을 활용한 데이터 전처리를 시작으로 확률통계, 하둡, 스파크, 쿠버네티스, 데이터 분석 등 데이터에 대한 거의 모든 내용을 담고 있는 강의였다. 강의평에 적었듯이 요약본에 가까운 느낌이었기에 공부를 하는데 크게 재미를 느끼지 못했고, 어렵다는 느낌만 크게 ..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 1일 차] 데이터 엔지니어링 : 자료구조/알고리즘 풀기 (1)

안녕, 자료구조 & 알고리즘! 자료구조 문자열, 리스트, 사전, 순서쌍(튜플), 집합 등의 자료형이 존재하는데 "자료구조"는 왜 알아야 하는가? 리스트와 max 함수를 활용해서 최댓값을 찾아내는데, 원소의 개수에 비례하여 실행시간이 증가 무작위의 숫자가 주어졌을 때, 최댓값을 빠르게 얻을 수 있도록 하는 특정 자료구조가 존재 어떤 문제를 해결할 것인가에 따라 적절한 자료구조가 달라짐 알고리즘 사전적 정의 : 어떤 문제를 해결하기 위한 절차, 방법, 명령어들의 집합 프로그래밍 : 주어진 문제의 해결을 위한 자료구조와 연산 방법에 대한 선택 해결하고자 하는 문제에 따라 최적의 해결 방법이 달라지며, 방법을 선택하기 위해 자료구조 이해가 필요 선형배열(Linear Array) 배열 : 원소들을 순서대로 늘어놓..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/기타

데이터 엔지니어링 OT 및 특강

오리엔테이션 출석체크 온라인 강의(프로그래머스 스쿨) : 해당 날짜에 휴대폰 본인인증 및 강의 듣기(둘 다 시간은 관계 X) 실시간 강의(줌, 프로젝트) : hrd-net 앱을 통해 수업시작, 수업 끝 QR 출석체크 오프라인 강의(강남 강의장) : hrd-net 앱을 통해 수업시작, 수업끝 QR 출석체크 지각, 조퇴 입실을 늦게 했을 경우 지각 퇴실을 일찍 했을 경우 조퇴 지각, 조퇴 3회 = 1일 결석 온라인 수강을 100% 미만으로 했을 경우 수업시간의 50%를 수강해야 지각 및 조퇴 처리 결석 입실 or 퇴실 중 하나라도 안했을 경우 수업시간의 50% 미만으로 참여했을 경우 무단결석 과제를 기간 내에 제출하지 않았을 경우 온라인 본인인증을 하지 않았을 경우 인정받을 수 있는 결석 예비군 또는 민방위..

프로젝트 단위 공부/[부스트코스] DataLit : 데이터 다루기

Ch2-과제. 파이스파크

문제 1) CSV 파일을 읽고 파일에 쓰기 파이스파크로 똑같이 하고 차이를 관찰한다. 아마 여러 개의 파일이 출력되는 것을 확인할 수 있다. 무슨 일이 일어났는지 간단히 설명하고 어떻게 여러 개의 출력물을 하나의 파일로 합칠 수 있을지 간단히 답해보자. Pyspark read/write 파이썬에서 스파크를 활용하기 위해서는 기본적으로 Session을 지정해주어야 한다. from pyspark.sql.session import SparkSession Sparksession을 확인하면 스파크의 버전과 AppName도 함께 출력된다. AppName은 함수를 통해 지정할 수 있다. sc = SparkContext.getOrCreate() spark = SparkSession(sc) spark # SparkSes..

기억에 남는 블로그 닉네임
'데이터 엔지니어링' 태그의 글 목록 (26 Page)