본문 바로가기
반응형

🌿 Data Engineering/Data PipeLine (Airflow)7

KubernetesPodOperator으로 로컬 k8s에서 airflow 배치작업 만들기 로컬에서 mwaa airflow를 띄워보고 >> https://pearlluck.tistory.com/791 AWS MWAA local runner로 로컬에서 airflow 2.2 사용해보기airflow DAG를 테스트해보는 환경이 없었다. 물론 DAG 코드가 간단해서 다행이지만 돌려보지도 않고 바로 staging에 반영을 해야하는 상황이였다. 심지어 나는 staging에 바로 머지할 권한도 없어서 매pearlluck.tistory.com로컬에서 쿠버네티스 환경을 구축해봤다.  >> https://pearlluck.tistory.com/794 로컬 환경에서 쿠버네티스 구축하기 (kind, docker-desktop)이전에 로컬에서 mwaa airflow를 띄워보았다. 직접 테스트해보고 구축해본 내용은 아.. 2024. 1. 21.
[로컬 환경에서] 쿠버네티스 구축하기 (kind, docker-desktop) 이전에 로컬에서 mwaa airflow를 띄워보았다.직접 테스트해보고 구축해본 내용은 아래의 글 참고^^ https://pearlluck.tistory.com/791  AWS MWAA local runner로 로컬에서 MWAA 사용해보기airflow DAG를 테스트해보는 환경이 없었다. 물론 DAG 코드가 간단해서 다행이지만 돌려보지도 않고 바로 staging에 반영을 해야하는 상황이였다. 심지어 나는 staging에 바로 머지할 권한도 없어서 매pearlluck.tistory.com 이번에는 로컬에서 쿠버네티스 환경을 구축해보려고 한다. 사실 가장 큰 목적은 이 로컬에서 띄운 mwaa airflow를 로컬 쿠버네티스 환경에서 사용해보는 것이다. 앞으로 아래와 같은 질문에 대한 답을 하나하나씩 찾아가보려.. 2024. 1. 15.
[로컬 환경에서] AWS MWAA (ariflow) 구축하기 airflow DAG를 테스트해보는 환경이 없었다. 물론 DAG 코드가 간단해서 다행이지만 돌려보지도 않고 바로 staging에 반영을 해야하는 상황이였다. 심지어 나는 staging에 바로 머지할 권한도 없어서 매번 PR을 드린다.그러다 단순한 오타나 따옴표 같은 에러라도 나는 날이면.....하하....^^;;  그래서 로컬에서 DAG 코드를 테스트해 볼 환경이 필요했다. 우리는 단순 ariflow가 아닌 aws의 mwaa를 사용한다. (오히려 좋아) 이와 같은 개발환경을 로컬에서 구축하고 DAG 코드를 테스트해 본 경험을 작성해보려고 한다.  사실 굉장히 간단한데 왜 지금까지 안해봤는지 모르겠다  ^0^  들어가기에 앞서 우리 서비스의 AWS mwaa는 이렇게 staging과 prod만 있다.   s.. 2024. 1. 7.
Airflow DAG작성하고, webUI 살펴보기 (OpenWeather ETL) 최근 이걸 2021.09.08 - [데엔스터디5] Airflow Deep Dive 들으면서 airflow를 이것저것 보고 있다. 그래서 간단하게 살펴본 web UI에 대해서 기록해보려고 한다. 우선 Airflow는 파이썬기반의 데이터파이프라인 프레임워크이다. 그래서 데이터파이프라인을 DAG라고 작성하면서 쉽게 생성하고, 관리해주는데 유용한다. 특히나 web UI를 지원해줘서 어떤 데이터파이프라인이 언제 실행되고, 어떻게 실행되는지를 볼 수 있다. AirFlow의 DAG는 데이터파이프라인을 의미하는 하나의 단위이다. 하나이상의 Task를 가지고 있고, 그 각각의 task들은 실행순서를 가지고 실행이 된다. 예를 들어 내가 작성한 DAG 파이썬 코드를 리뷰해보자면.. openWeatherAPI를 통해 최근7.. 2021. 9. 11.
AWS ec2(Ubuntu)에 Airflow2.0 설치하기 Ubuntu에서 airflow2.0 설치하는 방법 참고 https://github.com/keeyong/data-engineering-batch5/blob/main/docs/Airflow%202%20Installation.md GitHub - keeyong/data-engineering-batch5 Contribute to keeyong/data-engineering-batch5 development by creating an account on GitHub. github.com 1. python 설치 sudo apt-get update sudo apt-get install -y python3-pip python3 --version Python 3.8.10 2. airlfow 및 기타모듈 설치 sudo .. 2021. 9. 3.
Airflow 한번 맛보기 | Apache Airflow란? 데이터엔지니어 자격요건에 꼭 나왔었다. 그래서 도대체 뭐길래 항상 있는걸까 궁금했고, 한번 접해보고 싶었다. 심지어 aws what's new 소식을 정리했을 당시에도 Airflow를 관리형으로 쓸 수 있는 서비스가 탄생했었다. 아마 이거였따. MWAA (Managed Workflows for Apache Airflow) 그래서 꼭 데이터엔지니어가 되서 이 서비스를 써볼 날을 꿈꾸고 있다 2021. 4. 16.
데이터파이프라인(datapipeline)이란? 데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다.데이터파이프라인을 통해 어디에서든지 데이터를 편하게 접근하고, 분석할 수 있게 해준다.  왜, 어디에서, 어떻게 데이터를 수집할 것인가?부터 출발한다데이터를 효과적으로 가져오는것이 data-driven기업의 숙제다. 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는게 핵심 키.데이터파이프라인 구축 : 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것 여러 소프트웨어적인 수동작업들을 제거하고, 데이터가 각 지점을 순조롭게 흐르도록 flow를 만들어 주는 것 심지어 여러 데이터 스트림을 한번에 처리해야하고, 모든종류의 데이터를.. 2021. 3. 10.
728x90