본문 바로가기
반응형

Book & Lesson47

[데엔스터디4] ETL/Airflow소개 데이터엔지니어링 스타터 키트 -4주차 후기 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! ETL이란? ETL : Extract, Transform, Load 하나의 데이터 소스에서 어떤 데이터 하나를 읽어다가, (Extract) 원하는 포맷으로 바꿔서, (Transform) 그걸 DW에 테이블로 로딩하는 작업 (load) ELT : Extract, Load, Transform 하나의 데이터 소스에서 어떤 데이터 하나를 읽어다가, (Extract) Transform작업 없이 다 '데이터레이크'에 복사하고, (Load) 데이터레이크 중에서 의미가 있고 최근 데이터만 원하는 포맷으.. 2021. 9. 3.
[데엔스터디3] 데이터엔지니어를 위한 SQL 실습 데이터엔지니어링 스타터 키트 -3주차 후기 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! 0. SQL실습 전 기억해야할 점 현업에선 깨끗한 데이터란 존재하지 않는다 -> 데이터의 품질을 의심하고 체크하는 버릇이 필요하다! 중복되는 레코드 체크 최근 데이터의 존재여부 체크 PK가 유니크한지 체크 NULL값 있는지 체크 아예 unit 테스트 형태로 만들어서 매번 체크할 수 있도록 data discovery 문제해결 점점 테이블이 많아지게 되서 데이터를 수집하고 통합하는 그 과정에 문제가 발생 어떤 테이블이 중요하고, 메타데이터가 어떤것이고, 어떤 테이블이 무슨역할을 하는지 등 관.. 2021. 8. 25.
[Spark강의4-2] Spark 데이터처리 실습2 -DF Transformation 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 4강. Spark 데이터처리 실습2 tip : 데이터프레임 명령어가 맞는지 확인하는 방법 -> 쿼리로 짜보고 그 실행결과가 같은지 확인 1.데이터 다운로드 및 확인(shell) 2. spark로 데이터로드 및 스키마확인 (base RDD) 3. 필요한 데이터만 데이터프레임으로 로딩(Transformation) 4. row 추출 및 생성 5. 컬럼 select df.select("컬럼명", "컬럼명).show(N) 6. 컬럼 drop df.drop(컬럼명).columns -> 근데 왜 컬럼이 살아있지? 7. 컬럼 filter 또는 where df. filter( col(컬럼명) 조건) df.where( 조건) 8. join df , .. 2021. 8. 23.
[Spark강의4-1] Spark 데이터처리 실습2-DAG개념 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 4강. Spark 데이터처리 실습2 DAG 단방향을 가지는 Acyclic 그래프 각각의 데이터프레임들이 그래프의 노드, 방향은 Transformation이 된다. 그래서 C에서 문제가 생겼으면 B부터 다시 실행이 되도록 Spark에 Action이 날라가면, Spark 대시보드에 job 생성 N개의 Stage로 나뉘고, 각각의 Stage에서 N개의 Task로 구성. operation 종류에 따라 같은 Transformation단계면 같은 Stage로 구분된다. 사용가능한 core갯수에 따라 task로 구분된다. 예를 들어 파일을 읽고, 토크나이징 하는 Transformation단계로 stage1, 새로운 파일을 읽어서 stage2로,.. 2021. 8. 23.
[Spark강의3-2] Spark 데이터처리 실습1 - RDD개념 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 3강. Spark 데이터처리 실습1 RDD Spark의 기본 데이터구조 계속해서 가공을 하면 계속 변환되면서 새로운 RDD가 생긴다(Transformation) DataFrame과 성능도 동일하다 예를 들어 log mining을 한다면 처음에 초기에 받아온 로그데이터들은 base RDD가 되고, 에러만 뽑아오는 Transform단계를 거치면 새로운 error RDD가 생성. 이제 그 에러메세지 중에서 원하는 Action을 수행하는 단계애선 필터에 대해서 count하고 싶다던지, spark dirver로 이벤트를 보낸다. RDD V DataFrame RDD : Spark의 low-level interface, 직접 데이터를 핸들링하는.. 2021. 8. 22.
[Spark강의3-1] Spark 데이터처리 실습1 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 3강. Spark 데이터처리 실습1 실습환경 : docker로 zeppline실행해서 SparkSession연결 사용언어 : Scala (기본 Spark 연습) 1.필요한 데이터 다운로드 및 데이터프레임 변환 2. 데이터 조작 (실행계획 확인/ 정렬/임시view생성) 2-1. SQL : GROUP BY 결과 %sql로 SQL내용만 따로 확인 할 수 있음 2-2. SQL : SUM, order 결과 %sql로 SQL내용만 따로 확인 할 수 있음 (sql결과를 간단한 그래프로도 제공) 참고로, sql과 같은 결과를 dataframe으로 구현할 수도 있다. 3. 데이터프레임 생성하기 4.SQL이 아니라 Scala를 통해 집계구하기 2021. 8. 22.
[Spark강의2] Spark의 실시간/배치 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 1강. Spark의 실시간/배치 1. BigData Processing 배치 프로세싱 : 데이터는 엄청 크지만 latency가 생겨도 되는 경우 (일,월을 기준으로 한번에 처리) 실시간 프로세싱 : 데이터가 온 즉시 바로 처리, 대신 데이터가 바로바로 처리되야해서 데이터가 간단해야함, Micro 배치프로세싱 : 작은 배치사이즈(bath+streaming), 실시간 집계가 필요한 경우 ex : Spark Streaming 2. 스트림 프로세싱 Native Streaming 방식 (Storm, Flik) Source Operator : 데이터 소스가 들어오는 부분, 예를 들면 카프카 Processing Operator : 데이터가 들어.. 2021. 8. 18.
[Spark강의1] Spark의 개념과 활용 아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다 1강. Spark의 개념과 활용 1. Apache Hadoop이란? HDFS : 분산파일 시스템 YARN : 다양한 어플리케이션을 돌릴때 클러스터역할을 해주는 관리자 MapReduce : 하둡의 프로그래밍 패러다임 HDFS (Hadoop Distributed File System) 하둡에코시스템에서 분산파일시스템 지원 큰 파일들을 잘 저장하고 잘 처리할 수 있게 지원 여러곳에 분산해서 저장->신뢰성 보장 HDFS 구조 마스터노드 (NameNode) : 메타데이터 managing 슬레이브노드 (DataNode)실제로 데이터를 저장하게 되는 노드 큰 파일들을 블럭단위로 저장(default size : 64) -> 안정적으로 복구하기 위.. 2021. 8. 18.
[데엔스터디2] 데이터엔지니어링을 위한 데이터웨어하우스(RedShift) 데이터엔지니어링 스타터 키트 - 2주차 후기 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! 2주차 내용 1. 데이터엔지니어링 ETL파이프라인 작성 흩어져있는 데이터를 수집해서, 원하는 포맷으로 변형하고, DW에 적재하는 ETL 파이프라인 작성 (코딩필요) 데이터의 크기와 양에 따라서 pandas로 끝나기도 하고, Spark를 사용해서 분산처리를 해야할 수도 있다. ETL파이프라인 관리 초기엔 Crontab으로 관리를 자동화하지만, ETL수가 늘어나면 관리를 편하게 할 수 있는 프레임워크 Airflow를 사용 데이터엔지니어의 일주일 (in 유데미) 월요일 , "sprint 계획.. 2021. 8. 15.
[데엔스터디1] 데이터팀과 데이터엔지니어 데이터엔지니어링 스타터 키트 -1주차 리뷰 아래의 내용은 직접 유료강의를 수강하고, 배운점 및 추가로 공부한 내용을 기록한 내용입니다. 프로그래머스에서 진행하는 실리콘밸리에서 날아온 데이터엔지니어링 스타터키트 강의추전! 1.강의소개 강사 및 수강생 소개 배움의 패턴 공부하는 시간만큼 실력이 늘다가 언젠가 정체기가 온다 -> 그때를 잘 버텨야한다! 어떻게 이겨낼 것인가? 버팀, 적어도 3~6개월 풀타임공부. 내가어디에서 막혔는지 자문하고 질문하기 잘하는 사람 보고 기죽지 않기, 남하고 비교하지 않기 [요즘 나의 생각] 사실 요즘 '질문을 통해서 성장한다' 는 역시나 진리구나.. 를 다시한번 생각하게 되었다. 반전이게도 내가 성장하기보다 타인을 통해서 깨닫고 반성하게 되었다. 다른 교육강의를 들으면서 프로젝.. 2021. 8. 15.
728x90

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });