본문 바로가기
반응형

Book & Lesson47

[책정리] 빅데이터를 지탱하는 기술 목차 이번달 목표..기술 책 마스터하기 앞으로 남은 이주동안 다 읽어볼 수 있겠지..? 데이터엔지니어가 되기 위하여..!! 목차 챕터1. 빅데이터의 기초지식 1-1. 빅데이터의 정착 1-2. 빅데이터시대의 데이터분석기반 1-3.스크립트 언어에 의한 특별분석과 데이터프레임 1-4. BI도구와 모니터링 챕터2. 빅데이터의 탐색 2-1. 크로스집게계의 기본 2-2. 열지향 스토리지에 의한 고속화 2-3. 애드혹 분석과 시각화 도구(주피터/Redash/Superset/Kibana) 2-4. 데이터마트의 기본구조 챕터3. 빅데이터의 분산처리 3-1. 대규모 분산처리의 프레임워크 3-2. 쿼리엔진 3-3. 데이터마트의 구축 챕터4. 빅데이터의 축적 4-1. 벌크형과 스트리밍형 데이터의 수집 4-2. 메세지 배송의 트레이.. 2021. 6. 16.
kafka강의6 | 카프카 버로우(Burrow) 지금까지 강의를 들으며 공부하고 학습해온 내용들 2021.03.22 - kafka강의1 | 아파치 카프카(Apache Kafka)란? 2021.03.22 - kafka강의2 | Topic이란? Pub/Sub 구조 2021.03.24 - kafka강의3 | 브로커, 복제, ISR(in-sync-replication) 2021.03.24 - kafka강의4 | 파티셔너(Partitioner)란? 2021.03.25 - kafka강의5 | 컨슈머 랙(Consumer Lag)이란? 하지만 이렇게 이론만 들어도 사실 잘 뭔가 와닿지 않는다. 대충 아 이런거구나 라고만 생각이 들지 실질적으로 어떻게 동작하는지 눈으로 봐야할것 같다. 그래서 kafka를 가지고 뭔가 만들어보고 싶다. 아래의 내용 및 이미지는 [데브원.. 2021. 3. 25.
kafka강의5 | 컨슈머 랙(Consumer Lag)이란? 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 컨슈머 랙이란? 운영 모니터링 지표 중 하나 파티션에 데이터가 하나하나씩 들어가게 되면 각 데이터에 오프셋 이라는 숫자가 붙는다. 파티션이 한개인 토픽에 프로듀셔가 데이터를 넣을경우 0부터 숫자가 붙는다 그런데 프로듀셔가 데이터를 넣어주는 속도보다 컨슈머가 데이터를 가져가는 속도가 더 빠르다면? 1.프로듀서가 넣은 데이터의 오프셋 2.컨슈머가 가져간 데이터의 오프셋 이 둘의 차이가 발생함!!! 이걸 컨슈머 랙 이 렉의 숫자를 통해 해당 토픽에 대한 프로듀셔와 컨슈머의 상태유츄 가능 (주로 컨슈머 상태) 토픽에 여러 파티션이 존재할 경우 lag도 여러개 존재할 수 있음 한개의 토픽와 컨슈머 .. 2021. 3. 25.
kafka강의4 | 파티셔너(Partitioner)란? 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 파티셔너란? 프로듀셔가 데이터를 보내면 무조건 파티셔녀를 통해서 브로커로 데이터가 전송된다 데이터를 topic의 어떤 파티션에 저장해야할지 결정하는 부분 레코드에 포함된 메세지 키 또는 메시지 값에 따라서 파티션의 위치 결정 파티셔너 기본값 : UniformStickyPartitioner 메세지 키가 있을떄, 없을떄 다르게 동작 메시지 키가 있는 경우,파티셔너에 의해서 특정한 hash값을 생성 이 hash값을 기준으로 어느 파티션에 들어가야할지 결정하게 된다. 동일한 메시지 키를 가진 레코드는 동일한 hash값을 만들기 떄문에 동일한 파티션에 들어감을 보장한다 즉, 동일한 파티션에 순서를 .. 2021. 3. 24.
kafka강의3 | 브로커, 복제, ISR(in-sync-replication) 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 감사합니다. 카프카는 파티션 단위로 분산처리를 수행한다. 이때 분산처리의 핵심은 '복제' -> 카프카의 가용성을 보장하는 가장 좋은 방법 모든브로커에게 데이터를 동일하게 보내는 것이 아니라 master->slave방향으로 데이터를 복제하는 것처럼 수행 브로커(Broker) 카프카가 설치되어 있는 '서버'단위 즉, 브로커1개를 모아서 처리할 수 있는 서버1개라고 볼 수 있을듯하다. 3개이상의 브로커로 클러스터 구성으로 사용하는 것 장 파티션이 1개이고, replication이 1인 topic이 존재하고, 브로커가 3개라면 브로커 3대 중 1대에 해당 topic의 정보(데이터) 저장 repli.. 2021. 3. 24.
kafka강의2 | Topic이란? Pub/Sub 구조 아래의 내용 및 이미지는 [데브원영] 아카피 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. Kafka의 토픽(Topic)이란? 데이터를 최종적으로 저장하는 곳인데, 데이터를 구분하기 위한 저장소라고 보면 된다. 카프카는 데이터를 주고받을떄 지정된 토픽으로 주고받는다. 데이터가 들어갈 수 있는 용량 토픽은 데이터베이스 테이블이나, 파일시스템의 폴더와 유사한 성질 이 토픽에 프로듀서는 데이터를 넣고, 컨슈머가 데이터를 가져간다. 토픽은 목적에 따라 각각의 이름을 가질 수 있는데 무슨 데이터를 담는지에 따라 명확하게 명명 권장 토픽 내부,파티션 메세지의 분류단위로 하나의 토픽은 여러개의 파티션으로 구성 파티션은 저장소안에 분리된 공간으로 데이터를 더 빨리, 더 많이 보내고 처리하기 위.. 2021. 3. 22.
kafka강의1 | 아파치 카프카(Apache Kafka)란? 나는 개발보다 빅데이터플랫폼,데이터파이프라인 이런 데이터엔지니어쪽을 공부하고 싶다. 하지만 막상 너무 막연해서 매번 무료강의임에도 미뤄뒀는데 갑자기 어느순간 배우고 싶어서 강의를 들었다. 오늘이라도 가끔 시간날때마다 한번씩 보려고 한다... 한번 들어본거랑 아예 모르는거랑은 다르니까.....한번이라도 들어두면 나중에 볼때 다르겠지.. 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 자세한 강의는 위의 연관링크 참고부탁드립니다. 감사합니다. 정의 | 아파치 카프카(Apache Kafka)란? 대용량, 대규모 메시지 데이터를 빠르게 처리하도록 개발된 분산 메시징 플랫폼 즉, 카프카는 어플리케이션간에 메세지를 교환하기 위해 사용되는 메세징 시.. 2021. 3. 22.
728x90

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });