spark

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 63일 차] 하둡과 Spark (3)

Spark 프로그래밍 : SQLSpark SQL 소개Spark SQL과 Spark DataFrame의 차이점과 Spark SQL의 사용법을 알아보자.SQL의 중요성데이터 분야의 필수적인 기본 기술구조화된 데이터를 다룬다면, SQL은 데이터 규모와 관계없이 쓰임모든 대용량 DW는 SQL 기반 : Redshift, Snowflake, BigQuery, Hive/PrestoSpark도 Spark SQL 지원Spark SQL구조화된 데이터 처리를 위한 Spark 모듈데이터 프레임 작업을 SQL로 처리 가능데이터 프레임이 테이블 이름 지정 후 sql 함수 사용 가능HQL(Hive Query Language)과 호환 가능Spark SQL vs DataFrameSQL로 가능한 작업이라면 DataFrame을 사용할 이..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 62일 차] 하둡과 Spark (2)

Spark 프로그래밍 : DataFrameSpark 데이터 처리Spark 데이터 시스템 아키텍처데이터 병렬처리데이터 분산하둡 맵의 데이터 처리 단위는 디스크에 있는 데이터 블록 (128MB)Spark에서는 이를 파티션 (Partition)이라 부름, 파티션의 기본 크기도 128MB나눠진 데이터를 동시 처리MapReduce에서 N개의 데이터 블록으로 구성된 파일 처리 시 N개의 Map 태스크 실행Spark에서는 파티션 단위로 메모리에 로드되어 Executor 배정데이터 분산 -> 파티셔닝 -> 병렬 처리Executor는 할당된 CPU 수만큼의 태스크 처리 가능적절한 파티션 개수 = Execution 개수 * Execution 당 CPU 수Spark 데이터 처리 흐름데이터 프레임은 작은 파티션들로 구성되며,..

Data Engineering/빅데이터

[빅데이터] 하둡 (Hadoop)과 Spark 개념 정리

하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..

[프로그래머스] 데이터 엔지니어링 데브코스 3기/TIL(Today I Learn)

[TIL - 61일 차] 하둡과 Spark (1)

빅데이터 처리와 Spark 소개빅데이터와 대용량 분산 시스템빅데이터 정의서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 규모의 데이터4VVolume : 데이터의 크기Velocity : 데이터의 처리 속도Variaty : 구조화 / 비구조화 데이터Veracity : 데이터의 품질빅데이터의 예디바이스 데이터 : 모바일, 스마트 TV, 각종 센서 (IoT) 데이터, 네트워킹 디바이스 등웹수십 조개 이상의 웹 페이지 존재 -> 지식의 바다웹 검색엔진 개발은 진정한 대용량 데이터 처리사용자 검색어와 클릭 정보 자체도 대용량요즘 웹 개발 자체가 NLP 거대 모델 개발의 훈련 데이터로 사용빅데이터 처리의 특징과 해결방안스토리지큰 데이터를 손실 없이 보관할 방법이 필요큰 데이터 저장이 가..

기억에 남는 블로그 닉네임
'spark' 태그의 글 목록 (2 Page)