데이터 엔지니어링

Data Engineering/Airflow

[Airflow] LocalExecutor Parallelism 개념 및 설정 방법

Local Executor - ParallelismParallelism 이란? Airflow에서 Parallelism은 실행되는 태스크의 병렬 처리 개수를 제어하는 개념이다. 이는 LocalExecutor 클래스의 self.parallelism 값에 따라 달라지며, 그 값에 따라 프로세스 생성 방식을 결정한다.변수 정보Type : StringDefault : 32Env : AIRFLOW__CORE__PARALLELISM self.parallelism == 0 (Unlimited Parallelism)시스템의 리소스 한계 내에서 제한 없이 프로세스 생성리소스가 부족할 경우 성능이 저하될 수 있음self.parallelism > 0 (Limited Parallelism)설정된 parallelism 값까지만 ..

기타/취업 & 진로

[DINNO 2024 참관 후기] 디지털 혁신 페스타에서 얻은 것 (24.10.12)

디지털 혁신 페스타, DINNO 2024 참관 후기참관 계기 및 내용참관 계기IT 관련 공부를 진행하면서 "언젠가 IT 컨퍼런스에 참가해 봐야겠다."라는 생각을 하였다. 하지만 기술적 지식이 부족해 "과연 배울 것이 있을까"하는 고민에 참관을 미루고 있었다. 그러던 중 DINNO 2024(디지털 혁신 페스타)를 알게 되었고, 마침 무료로 다양한 회사 부스와 컨퍼런스에 참여할 수 있었기에 바로 신청하였다.참관 내용DINNO 2024는 10월 10일부터 12일까지 진행되었다. 평일에 직장 문제로 마지막 날인 12일에 참관하게 되었다. 행사에서는 다양한 기업 부스와 Job Tech Connecting Days라는 컨퍼런스가 열렸고, 나는 주로 개발 및 AI-Data 관련 컨퍼런스에 집중해서 참여하였다. 또한,..

Infra/[인프라 구축기] Terraform 활용 AWS 인프라 구축

인프라 구축기 (5) - Private Subnet EC2에서 다른 Subnet의 인스턴스 접근 확인

인프라 구축기인프라 구축기 (4)에서 구성된 인프라에서 Bastion Host 터널링을 통한 RDS, Redshift Serverless, Airflow (EC2) 접근을 확인할 수 있었다. 이번엔 Private Subnet에 구성돼 있는 Airflow EC2에서 Private Subnet에 위치한 RDS, Redshift와 S3 Endpoint를 통해 S3에 접근이 가능한지 확인해 볼 것이다. 또한 NAT Gateway를 통한 외부 통신이 가능한지도 확인할 것이다. 인프라 구축기 (4) - Bastion Host에서 Private Subnet 접근 확인인프라 구축기인프라 구축기 (3)까지 진행하면서 Terraform을 활용해 인프라 구성을 완료하였다. 이번엔 VPC 내부의 연결이 제대로 이루어졌는지 확..

Infra/[인프라 구축기] Terraform 활용 AWS 인프라 구축

인프라 구축기 (4) - Bastion Host에서 Private Subnet 접근 확인

인프라 구축기인프라 구축기 (3)까지 진행하면서 Terraform을 활용해 인프라 구성을 완료하였다. 이번엔 VPC 내부의 연결이 제대로 이루어졌는지 확인해보려고 한다. 특히 보안 그룹이 제대로 설정돼있지 않으면 접근이 불가능하다. 인프라 구축기 (4)에서는 Bastion Host를 통해 Redshift, RDS, Airflow (ec2)에 접근이 가능한지 확인해보려고 한다. 인프라 구축기 (3) - Terraform을 활용한 Instance, Storage 구성인프라 구축기인프라 구축기 (2)에서 Terraform을 활용하여 VPC를 구성하는 코드를 작성하였다. 이어서 Instance와 Storage를 구성하는 코드를 작성해 볼 것이다. 추가로 vpc, instance, storage 폴더로 구분하sa..

기억에 남는 블로그 닉네임
'데이터 엔지니어링' 태그의 글 목록 (3 Page)