728x90
데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발
특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다.
데이터파이프라인을 통해 어디에서든지 데이터를 편하게 접근하고, 분석할 수 있게 해준다.
왜, 어디에서, 어떻게 데이터를 수집할 것인가?부터 출발한다
데이터를 효과적으로 가져오는것이 data-driven기업의 숙제다.
데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는게 핵심 키.
데이터파이프라인 구축 : 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것
여러 소프트웨어적인 수동작업들을 제거하고, 데이터가 각 지점을 순조롭게 흐르도록 flow를 만들어 주는 것
심지어 여러 데이터 스트림을 한번에 처리해야하고, 모든종류의 데이터를 수용해야한다.
데이터를 잘 전달하기 위한 시스템
ETL이랑 뭐가 다른가?
ETL은 추출(Extract), 변환(Transform), 적재(Load)의 줄임
ETL시스템은 하나의 시스템에서 data를 추출하고, data를 변환하여 데이터베이스나 dw에 적재한다.
레거시 ETL 파이프라인은 보통 배치로 작동하고 큰 덩어리의 data를 특정 시간에 한 공간에 저장하는 작업
데이터파이프라인은 ETL을 포함하는 광범위한 용어
즉, 데이터를 한 시스템에서 또다른 시스템으로 옮기는 작업을 뜻함
데이터파이프라인은 어떻게 만드는가?
Apache Spark, Amazon S3 기반의 대용량 데이터분석 파이프라인
반응형
'Data > Data Engineering' 카테고리의 다른 글
ETL ELT 차이 | 요즘엔 ETL에서 ELT로 흐름이 바뀌고 있다?@! (0) | 2021.08.16 |
---|---|
[예정] 객체스토리지와 NoSQL스토리지의 차이점 /CAP정리 (0) | 2021.06.27 |
🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 (1) | 2021.06.26 |
JSONPath 라이브러리와JSON파싱(load/dump/loads/dumps) (0) | 2021.06.26 |
데이터웨어하우스(Data Warehouse)란? (0) | 2021.03.16 |
데이터엔지니어, 돌고 돌아 다시 확신을 갖게 되다 (0) | 2021.03.10 |