본문 바로가기
반응형

Book & Lesson48

[책정리] 빅데이터를 지탱하는 기술 3.3 데이터마트의 구축 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터구조화가 잘 되어 있으면 dw와 같은 개념으로 데이터마트를 구축할 수 있다. 팩트테이블과 디멘전 테이블 준비 -> 결합 및 집계 -> 비정규화테이블 생성 디멘전으로 사용하는 데이터는 스냅샷으로 이력 축적, 디멘전의 카디널리티를 줄임 팩트테이블 팩트테이블이 아주 작으면 메모리에 올리면 되지만, 그렇지 않으면 열지향 스토리지에서 데이터를 압축해야함. 팩트테이블의 작성.. 2021. 6. 23.
[책정리] 빅데이터를 지탱하는 기술 3.2쿼리 엔진 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 Hive에 의한 구조화데이터의 생성과 Presto에 의한 대화식 쿼리 데이터마트 구축의 파이프라인 Hive와 Presto를 결합한 데이터프라인 비구조화(비정형) 데이터 -> 구조화(정형)데이터 -> 비정규화 데이터 1. 분산스토리지에 저장된 데이터를 구조화한다. (Hive) 2. 열지향 스토리지 형식으로 변환 및 저장 3. 완성한 구조화 데이터를 결합 및 집약하여 비정.. 2021. 6. 22.
[책정리]빅데이터를 지탱하는 기술 3.1 대규모 분산 처리의 프레임워크 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 데이터 처리를 분산하기 위해서 그 실행을 관리하기 위한 프레임워크, Hadoop과 Spark 구조화 데이터 vs 비구조화 데이터 구조화데이터(정형데이터) : 테이블의 칼럼명, 데이터형, 관계와 같은 스키마가 명확하게 정의된 데이터 비구조화데이터(비정형데이터) : 텍스트, 이미지,동영상 등 스키마가 없는 데이터 스키마리스 데이터(반정형데이터) : CSV,JSON,XML등.. 2021. 6. 22.
[책정리]빅데이터를 지탱하는 기술 2.4 데이터마트의 기본구조 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 BI도구에서 대화형으로 데이터를 참고하려고 하면, 시각화에 필요한 정보만 모든 데이터마트가 필수적이다. 그렇다면 데이터마트를 어떻게 설계하나? 시각화에 적합한 데이터마트 OLAP OLAP개념 추가로 살펴보기 2020.01.17 - OLAP/OLTP/DW/ETL 용어정리 +.. 2021. 6. 19.
[책정리]빅데이터를 지탱하는 기술 2.3 애드혹 분석과 시각화도구 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 이번에는 시각화 도구의 특징 알아보기 Jupyter NoteBook(주피터) 데이터를 찬찬히 수작업으로 살펴보는 애드훅 분석을 한다면? 대화형 실행환경 원하는 데이터가 어디에 있는지도 모르고, 집계시간이 얼마나 걸리는지도 알지 못하는 상황에서 시행착오를 거치며 데이터를 살.. 2021. 6. 19.
[책정리]빅데이터를 지탱하는 기술2-2.열지향 스토리지에 의한 고속화 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 데이터베이스 지연줄이기 데이터 기반 서비스를 운영하려면, 데이터 마트를 구축하여 초 단위로 처리가 이루어져야 한다. 어떻게 데이터를 빨리 처리하게 만들 수 있는가? 데이터 처리응답이 빠르다 = 대기시간이 적다 = 지연이 적다 = 데이터마트를 만들때 필요한 데이터베이스의 조.. 2021. 6. 18.
[책정리]빅데이터를 지탱하는 기술 2-1. 크로스집계의 기본 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터2. 빅데이터의 탐색 2-1. 크로스집계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 크로스집계의 개념 크로스테이블 행과 열이 교차하는 부분에 숫자데이터가 들어가있는 테이블 사람들이 보기 편한 보고서지만, 데이터베이스에서는 다루기 어려운 데이터형식 새로운 행을 추가하긴 쉽지만, 열을 늘리는것이 간단하지 않다. (컬럼과 행으로만 구분) 트랜잭션 테이블 크로스테.. 2021. 6. 18.
[책정리] 빅데이터를 지탱하는 기술 1-4. BI도구와 모니터링 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 현재상황파악 : 스프레드시트 모니터링 모니터링이란 계획적으로 데이터변화를 추적하는것. 현재상황을 파악하기 위한 하나의 도구로 데이터를 사용한다. 데이터의 변화를 모니터링하고, 만약 예상과 다른 움직임이 있다면 행동을 해야한다. 여기에 사람판단이 필요하다. 데이터에 근거한 의사결정 : KPI모니터링 KPI란 프.. 2021. 6. 17.
[책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 데이터처리와 스크립트 언어(python) 전처리가 필요한 데이터가 있다. api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다. 이떄 많이 쓰는 것이 파이썬이랑 R. R보다 파이썬이 인기있는 이유? 다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(.. 2021. 6. 17.
[책정리] 빅데이터를 지탱하는 기술 1-2. 빅데이터시대 데이터분석기반 6월 선정도서 - 빅데이터를 지탱하는 기술 선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고, 미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다) 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 빅데이터의 기술 빅데이터의 기술이란 분산시스템을 활용하면서 데이터를 순차적으로 가공해나가는 일련의 구조 빅데이터기술이 기존의 데이터웨어하우스와 다른점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리구조를 만든다는 점. 데이터파이프라인 차례대로 전달해나가는 데이터로 구성된 시스템 어디에서 데이터를.. 2021. 6. 16.
728x90

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });