빅데이터 처리와 Hadoop의 등장 데이터의 크기가 증가하면서 서버 한대로 처리할 수 없는 규모의 데이터인 '빅데이터'의 개념이 등장하였다. 이러한 빅데이터를 처리하기 위해 대용량 데이터를 분산 처리하는 기술인 하둡이 등장하였다. 이후 하둡의 생산성을 증진시키기 위해 Spark가 등장하였는데, 여기서는 빅데이터 처리와 Hadoop에 대해 알아보려고 한다!빅데이터 처리빅데이터란?서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4V : Volume (크기), Velocity (속도), Variaty (다양성), Veracity (정확성)빅데이터 처리의 특징과 해결 방안빅데이터 처리를 위해 데이터를 분산 저장 및 분산 처리가 필요하며, 결국 다수의 컴퓨터로 구성된 프..
정렬개념 정리정렬데이터를 특정한 기준에 따라서 순서대로 나열하는 것예) 카드 크기에 따라 순서대로 나열하도록 하는 것특징프로그램을 작성할 때 가장 많이 사용되는 알고리즘 중 하나데이터를 정렬하면 이진 탐색 (Binary Search)이 가능 (다음 챕터 내용)정렬 알고리즘 소개 다양한 알고리즘이 존재하지만, 이 중에 선택 정렬, 삽입 정렬, 퀵 정렬, 계수 정렬을 소개하려고 한다. 여기서는 모두 오름차순 정렬을 수행한다고 가정한다. 내림차순 정렬은 오름차순 정렬 알고리즘에서 크기 비교를 반대로 수행하면 된다.아래의 카드를 기준으로 정렬 알고리즘 설명 진행선택 정렬매번 가장 작은 것을 선택해 앞의 데이터와 변경하여 정렬알고리즘가장 작은 데이터를 선택해 맨 앞에 있는 데이터와 변경다음으로 작은 데이터를 선택..
VPC 개념과 구성요소VPC (Virtual Private Cloud) 개념VPC 개념사용자가 정의하는 AWS 전용 가상 네트워크사용자가 직접 VPC 생성도 가능하며, default로 생성되는 VPC도 사용 가능VPC 이전EC2-클래식 네트워크 : 모든 인스턴스들이 연결돼 있어 복잡도가 높음VPC가 도입된 이후인스턴스가 VPC에 속함으로써 네트워크를 구분VPC 별로 필요한 설정을 통해 인스턴스에 네트워크 설정 적용 가능VPC 구성 요소 VPC 독립된 하나의 네트워크를 구성하기 위한 가장 큰 단위 서브넷하나의 네트워크가 분할되어 나눠진 작은 네트워크각 서브넷은 IP 주소 범위가 할당되며 네트워크 트래픽 제어를 위한 자체 정책이 있을 수 있음각 서브넷은 하나의 가용 영역(Available Zone, AZ)..
[TIL - 72일 차] 음식 배달에 걸리는 시간 예측하기 (1)오늘 강의는 "선형대수 기초"이지만, 이미 대학교에서 강의를 수강하기도 했고 수식이 많아 모두 정리하기에 무리가 있어 학습은 영상으로만 진행하였다. 대신에 머신러닝 과제인 "음식 배달에sanseo.tistory.com이전에 문제 이해와 데이터 전처리, 하이퍼 파라미터 튜닝 코드까지 작성해 보았다. 그러나 학습 시간이 생각보다 오래 걸려 KFold를 사용하지 않은 방법으로 사용해보려고 한다. 또한 테스트 데이터의 예측과 under_prediction의 비율도 확인해 보자.음식 배달에 걸리는 시간 예측하기진행 과정하이퍼 파라미터 튜닝KFold (교차 검증) 부분을 삭제하고 train_test_split 사용실행 결과최소 rmse : 729.44..