Spark 프로그래밍 : DataFrameSpark 데이터 처리Spark 데이터 시스템 아키텍처데이터 병렬처리데이터 분산하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB)Spark에서는 이를 파티션 (Partition)이라 부름, 파티션의 기본 크기도 128MB나눠진 데이터를 동시 처리MapReduce에서 N개의 데이터 블록으로 구성된 파일 처리 시 N개의 Map 태스크 실행Spark에서는 파티션 단위로 메모리에 로드되어 Executor 배정데이터 분산 -> 파티셔닝 -> 병렬 처리Executor는 할당된 CPU 수만큼의 태스크 처리 가능적절한 파티션 개수 = Execution 개수 * Execution 당 CPU 수Spark 데이터 처리 흐름데이터 프레임은 작은 파티션들로 구성되며,..
Amazon S3(Simple Storage Service)Amazon S3란?S3는 AWS가 제공하는 클라우드 스토리지 서비스로 파일, 데이터 및 다양한 유형의 미디어 등을 저장하고 관리하는 데 사용된다. S3을 사용하여 데이터 레이크, 웹/앱, 백업 및 복원, 빅데이터 분석 등 다양한 부분에서 원하는 양의 데이터를 저장하고 보호할 수 있다.S3 용어 - 버킷(Bucket), 객체(Object)버킷을 마트, 객체를 물건이라고 예를 들어보자. 마트 내에 여러 물건이 있는 것처럼 버킷 안에는 파일, 사진, 동영상 등 다양한 데이터를 넣을 수 있다. 그리고 물건마다 이름과 설명이 적힌 것처럼 버킷 안의 데이터에는 이름, 크기 등의 정보들이 포함되어 있다. 버킷 안에 존재하는 물건 하나하나를 객체라고 부른다...
프로젝트 설명 및 회고프로젝트 소개깃허브 링크 GitHub - ss721229/competition-webContribute to ss721229/competition-web development by creating an account on GitHub.github.com 진행 기간2024.04.25 ~ 2024.05.12 (18일)프로젝트 진행 과정 (링크)주제 "링커리어", "위비티", "씽굿"의 공모전을 한 페이지에서 확인할 수 있는 웹 제작프로젝트 인원 구성개인 프로젝트활용 기술 및 프레임워크Frontend : HTML, CSSBackend : Django (5.0.4), sqliteCrawling : beautifulsoup (4.12.3), selenium (4.20.0)Data-Proce..
이전에 검색어가 포함된 제목을 가진 공모전을 찾아 페이지네이션 형태로 제공하도록 기능을 추가하였다. 이번에는 공모전 데이터가 오류 없이 모두 스크래핑되는지 확인하고, 웹페이지 디자인 마무리 작업을 진행하려 한다. [개인 프로젝트] 공모전 크롤링 (10) - 세부 페이지(검색 기능, 페이지네이션)이전에 세부 페이지 html 파일을 작성하고, 메인 페이지에서 검색을 진행하면 해당 데이터를 받을 수 있도록 작성하였다. 이번에는 검색어가 포함된 제목을 가진 공모전을 찾아 페이지네이션 형sanseo.tistory.com데이터 스크래핑이전에 작성했던 코드로 플랫폼 별 데이터 수집을 진행하였다. 실행한 코드는 다음과 같다. if __name__ == "__main__": title, url, applicatio..