본문 바로가기
반응형

Book & Lesson47

[데엔스터디0] 신청계기와 커리큘럼 그리고 얻고 싶은 것! 데이터엔지니어링 스타터 키트 후기 어떻게 알게 되었는가? 나는 처음부터 데이터엔지니어링에 관심이 많았다. 그래서 데이터엔지니어 채용 / 데이터엔지니어 신입 / 데이터엔지니어 취업 이렇게 자주 검색하고 후기를 찾아본다. 그러던 중에 이분의 후기를 알게 되었다. 데이터엔지니어로 취업하기까지 회고록을 작성하였는데 여기에서 이분이 수강하셨다고 봐서 알게되었다! 그리고 알고보니 실제로 데이터엔지니어 현직자 사이에서도 만족도가 높은걸로 유명한 강의였다! 기대되는 커리큘럼 프로그래머스 데이터엔지니어 스터디 (실리콘밸리에서 날아온 데니어링 스타터 키트) 스터디는 한기용님이 진행해주시고, 비록 6주동안 진행되는거지만 생각보다 구성이 알찬것 같다. 간략하게 커리큘럼을 살펴보면 이렇다. 특히 데이터웨어하우스로는 Redshi.. 2021. 8. 14.
[책정리] 빅데이터를 지탱하는 기술 6.1 Spark를 사용한 트위터분석 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터6. 빅데이터 분석 기반의 구축 6-1. 스키마리스 데이터의 애드훅분석 6-2. 하둡에 의한 데이터파이프라인 6-3. 워크플로 관리도구에 의한 자동화(airflow) 6-4. 클라우드 서비스에 의한 데이터파이프라인 아래의 내용은 실제 AWS의 EC2를 사용하여 Linux환경에서 직접 실습해본 내용입니다. 1.스키마리스 데이터 수집하기 데이터수집 : 스트리밍API를 사용한 트윗 데이터 https://developer.twitter.com/en/docs 트위터에 흘러가는 트윗을.. 2021. 7. 16.
[책정리]빅데이터를 지탱하는 기술 5.3 스트리밍형 데이터플로우 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 배치처리 VS 스트림처리 배치처리 도달한 데이터를 분산스토리지에 보관하고, 정기적으로 추출하여 분석할 수 있도록 데이터를 처리한다. 데이터가 영속적으로 보존되기 때문에 몇번이고 재실행가능, 장기적인 데이터분석을 예상하여 집계효율이 높은 열지향 스토리지 구축 가능 다만 데이터가 분석할 수 있게 될때 즉 데이터를 모아서 열지향 스토리지를 구축할때 까지 시간이 걸린다... 2021. 7. 11.
[책정리]빅데이터를 지탱하는 기술 5.2 배치형의 데이터 플로우 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다) 하 면접이랑 코딩테스트를 준비하면서 병행하지 못해 아직도 못 끝내고 있다...얼릉 끝내야하는데.. 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 챕터6. 빅데이터 분석 기반의 구축 6-1. 스키마리스 데이터의 애드훅분석 6-2. 하둡에 의한 데이터파이프라인 6-3. 워크플로 관리도구에 의한 자동화(airflow) 6-4. 클라우드 서비스에 의한 데이터파이프라인 복잡한 텍스트처리나 다단계의 데이터파이프라인을 .. 2021. 7. 11.
[책정리]빅데이터를 지탱하는 기술 5.1 워크플로 관리 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터5. 빅데이터의 파이프라인 5-1. 워크플로관리 5-2. 배치형의 데이터플로우 5-3. 스트리밍형의 데이터플로우 정기적인 데이터관리를 자동화하여 안정된 배치처리를 실행하기 위해 워크플로 관리도구 도입 아, 아무래도 기존 데이터웨어하우스, 데이터마트보다 덜 접해본 개념이다보니 너무나도 생소하고 낯설다.. 그래서 이해가 되지 않는 부분이 꽤나 많았다... 워크플로 관리 워크플로 관리란? 정해진 업무를 원활하게 진행하기 위한 구조 정해진 스케쥴에 따라 자동으로 실행되도록 하는 자.. 2021. 7. 5.
[책정리] 빅데이터를 지탱하는 기술 4.4 비구조화 데이터 분산스토리지 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 비구조화데이터 = 비정형데이터 = NoSQL 데이터베이스에 저장하는 데이터들 [NoSQL 데이터베이스의 예] 분산key-value 스토어 : DynamoDB 와이드칼럼 스토어 : Cassandra 도큐먼트 스토어 :.. 2021. 6. 27.
[책정리]빅데이터를 지탱하는기술 4.3 시계열데이터의 최적화 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 스트리밍형 메세지배송에서는 메세지가 도착할떄까지 시간지연이 문제다. 늦게 도달하는 데이터가 집계속도에 어떤 영향을 미칠 것인가 프로세스 시간과 이벤트시간 이벤트시간 : 클라이언트 상에서 메시지가 생성된 시간 프로세스.. 2021. 6. 26.
[책정리] 빅데이터를 지탱하는기술 4.2 메세지 배송의 트레이드 오프 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 클라이언트 수가 많아지면 스트리밍형의 메세지배송의 성능과 신뢰성을 둘다 만족시키는 것이 어렵다. 왜? 성능문제 : 메세지브로커 메세지브로커가 없다면? 성능문제 메세지 배송으로 보내진 데이터들을 분산스토리지에 저장할때.. 2021. 6. 26.
[책정리] 빅데이터를 지탱하는 기술 4.1 벌크형/ 스트리밍형 데이터 수집 및 전송 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이드 오프 4-3. 시계열데이터의 최적화 4-4. 비구조화 데이터의 분산 스토리지 (Dynamodb/Cassandra/MongoDB/ElasticSearch/Splunk) 데이터를 수집하고, 분산 스토리지에 저장하기까지 프로세스 데이터전송에 벌크형과 스트리밍형 도구가 사용된다. 어떻게 분산스토리지에 이 데이터들이 저장되는지 그 흐름. 객체스토리지 빅데이터는 확장성이 높은 분산스토리지에.. 2021. 6. 23.
[책정리] 빅데이터를 지탱하는 기술 3.3 데이터마트의 구축 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터구조화가 잘 되어 있으면 dw와 같은 개념으로 데이터마트를 구축할 수 있다. 팩트테이블과 디멘전 테이블 준비 -> 결합 및 집계 -> 비정규화테이블 생성 디멘전으로 사용하는 데이터는 스냅샷으로 이력 축적, 디멘전의 카디널리티를 줄임 팩트테이블 팩트테이블이 아주 작으면 메모리에 올리면 되지만, 그렇지 않으면 열지향 스토리지에서 데이터를 압축해야함. 팩트테이블의 작성.. 2021. 6. 23.
728x90

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });