VPC 개념과 구성요소VPC (Virtual Private Cloud) 개념VPC 개념사용자가 정의하는 AWS 전용 가상 네트워크사용자가 직접 VPC 생성도 가능하며, default로 생성되는 VPC도 사용 가능VPC 이전EC2-클래식 네트워크 : 모든 인스턴스들이 연결돼 있어 복잡도가 높음VPC가 도입된 이후인스턴스가 VPC에 속함으로써 네트워크를 구분VPC 별로 필요한 설정을 통해 인스턴스에 네트워크 설정 적용 가능VPC 구성 요소 VPC 독립된 하나의 네트워크를 구성하기 위한 가장 큰 단위 서브넷하나의 네트워크가 분할되어 나눠진 작은 네트워크각 서브넷은 IP 주소 범위가 할당되며 네트워크 트래픽 제어를 위한 자체 정책이 있을 수 있음각 서브넷은 하나의 가용 영역(Available Zone, AZ)..
하둡 (Hadoop)과 Spark 개념 정리빅데이터 정의빅데이터 정의빅데이터란 거대한 규모(Volume), 빠른 속도(Velocity), 높은 다양성(Variety)을 특징으로 하는 데이터 (3V)빅데이터는 새로운 데이터 소스에서 나온 더 크고 복잡한 데이터셋서버 한대로 처리할 수 없는 규모의 데이터기존의 소프트웨어로는 처리할 수 없는 데이터양 : Volume빅데이터를 사용하면 비정형 데이터를 대량으로 처리해야 함데이터의 크기는 테라바이트(TB)를 넘어 페타바이트(PB)가 될 수 있음속도 : Velocity속도는 데이터가 얼마나 빠르게 수신 및 처리되는가를 나타냄일반적으로 데이터를 디스크에 기록하는 것보다 메모리로 직접 스트리밍 할 때 속도가 빠름종류 : Variety사용 가능한 데이터의 유형 수를 나타..
프로덕션 데이터베이스 & 데이터 웨어하우스프로덕션 데이터베이스와 데이터 웨어하우스는 대표적인 관계형 데이터베이스이다. 같은 종류의 데이터베이스이지만, 기능 / 용도가 다르기 때문에 서로 다른 목적을 위해 사용된다. 이러한 프로덕션 데이터베이스와 데이터 웨어하우스의 개념과 사용 목적, 차이점을 알아보자.프로덕션 데이터베이스 (Production Database)개념프로덕션 데이터베이스는 사용자에게 정보를 제공하기 위해 사용하는 데이터베이스로 처리 용량보다 처리 속도가 중요시한다.대표적인 데이터베이스 : MySQL, PostgreSQL, Oracle 등OLTP (Online Transaction Process)프로덕션 데이터베이스는 OLTP에 속한다. OLTP는 온라인 뱅킹, 쇼핑, 주문 입력, 텍스트 메시..
Airflow 기초 지식Airflow 소개Airflow 개념파이썬으로 작성된 데이터 파이프라인(ETL) 프레임워크가장 많이 사용되는 데이터 파이프라인 관리 프레임워크Airflow 장단점장점데이터 파이프라인을 세밀하게 제어 가능다양한 데이터 소스와 데이터 웨어하우스를 지원Backfill (여러 이유로 과거의 ETL 실행이 안될 경우 과거의 날짜의 ETL을 실행)이 쉬움단점배우기 쉽지 않음상대적으로 개발 환경을 구성하기 힘듦직접 운영이 쉽지 않으며, 클라우드 버전 사용 선호Airflow 관련 용어DAG(Directed Acyclic Graph)Airflow에서 ETL을 부르는 별칭DAG는 하나 이상의 Task로 구성Task오퍼레이터(Operator)로 만들어짐Airflow 내에서 다양한 종류의 오퍼레이터 제..