본문 바로가기

🌿 Data Engineering60

[Spark] Apache Spark란? | 빅데이터 처리단계-분산처리/하둡/맵리듀스 spark를 알기위해 거의 다왔다. 빅데이터 처리단계로 수집과 저장단계를 지나 처리단계이다. 처리 데이터분석을 하기에 앞서 몇가지 데이터처리가 필요하다. 즉 분산처리가 필요하다. 병렬처리 vs 분산처리 분산처리란 해야하는 한가지 일을 여러 컴퓨터들에게 나누어서 동시에 처리한 뒤 한곳으로 모으는 방법이다.. cpu들을 네트워크로 연결하여 전체적인 일을 부분부분으로 나누니까 더 빨리 처리할 수 있다. 병렬처리란 동시에 많은 계산을 하는 방법이다. 여러일을 동시에 한꺼번에 처리하는 것이다. 이 둘의 공동점은 일을 '동시에' 처리한다는 것이다. 하지만 분산처리는 동시에 여럿이서 하나의 일을 하고, 병렬처리는 동시에 여러일을 처리한다. 어떻게 처리하는데? 처리방법이 있나? 1.일괄처리(Batch 처리) 컴퓨터 프.. 2021. 4. 22.

[Spark] Apache Spark란? | 빅데이터 처리단계 -수집과 저장/ETL/HBase Spark를 알아보기 위해 빅데이터 처리의 5단계를 알아보았다. 이제 그 각각의 단계를 조금 자세히 살펴보겠다. 특히 여기 수집과 저장단계는 늘 관심있는 분야였기에 자주 많이 들어봐서 그래도 익숙했다. 수집 데이터는 어디에서 수집될까? 크게 외부와 내부로 나누어진다. 내부는, 자체적으로 보유한 내부파일시스템, RDBMS에 저장된 데이터들 -> 정형데이터일 것이고 외부는 무궁무진하다. 외부이미지,영상,문서,텍스트 등 그 어떤것이든 다 수집할 수 있는 데이터다. 어떻게 수집하는가? 내가 가장 와닿고 가장 많이 해본순서대로 나열하자면 1.크롤링 인터넷에 공개되어 있는 데이터들을 수집하는 것이다. (Python으로 셀레니움이나 beautifulsoup 라이브러리를 이용했다) 2. OpenAPI와 RSS리더 필요.. 2021. 4. 21.

[Spark] Apache Spark란? | Spark정의를 알아보기까지 빅데이터흐름 Spark란? 한마디로 정의하면 빅데이터처리를 위한 오픈소스 분산처리 플랫폼 또는 빅데이터 분산처리엔진이다. 이 한 줄에서 내가 궁금한점은 이렇다 - 빅데이터란? - 빅데이터 처리란 무엇인가? - 분산처리는 또 무엇인가? 그래서 위의 내용을 토대로 spark가 무엇인지 오늘 공부해보려고 한다. 빅데이터(Bigdata)란? 기존의 데이터베이스, 데이터베이스관리형시스템을 넘어 정형,반정형,비정형데이터를 포함한 다양한 데이터로부터 의미있는 가치를 추출하고 원하는 결과를 분석하는 기술이다. 즉, 큰 데이터로부터 유의미한 지표를 분석해내는 것으로 정의할 수 있다 예를 들어 SNS,로그,문서 등 다양한 경로를 통해 수집한 여러형태의 데이터를 이용하여 의사결정에 도움을 주는 지표를 분석하여 제공하는 것이다. (출처 .. 2021. 4. 21.

Airflow 한번 맛보기 | Apache Airflow란? 데이터엔지니어 자격요건에 꼭 나왔었다. 그래서 도대체 뭐길래 항상 있는걸까 궁금했고, 한번 접해보고 싶었다. 심지어 aws what's new 소식을 정리했을 당시에도 Airflow를 관리형으로 쓸 수 있는 서비스가 탄생했었다. 아마 이거였따. MWAA (Managed Workflows for Apache Airflow) 그래서 꼭 데이터엔지니어가 되서 이 서비스를 써볼 날을 꿈꾸고 있다 2021. 4. 16.

[kafka 기초] Spring boot웹 Producer->Kafka구현(Intellij 환경) 걍 로컬환경에서 Kafka 구축해서 테스트해봤는데 잘 안됐었다. 그리고 java로 컨슈머랑 프로듀셔도 만들어서 직접 데이터 전송되는걸 확인해보려고 했다... 하지만 java를 그냥 쓰기엔 흐지부지되어버렸었다. 그래서 이왕 이렇게 된 겸 intellij도 설치해봤다. [JAVA]Intellij IDE 설치 | JAVA 설치 | JDK 다운로드 이클립스는 너ㅓㅓ무 질렸다. 내가 그동안 자바에 끌리지 않는 이유도 다 안예쁜 이클립스 탓.... 그래서 새로운 툴을 써보고 싶어서(?) 다시 자바에 눈을 돌렸다.. 헐키 학생인증하면 ulitmate 라이 pearlluck.tistory.com 아 그리고 intellij는 커뮤니티 말고 utlimate버전으로(학생인증받아서) 그리고 이렇게 된겸 간단한게 spring .. 2021. 3. 28.

[kafka 기초] 카프카 실행하기(단일브로커) 일단 각각의 3개의 서버에 카프카와 주키퍼가 설치된 상태이다. 그리고 서버3은 주키퍼리더고, 나머지는 팔로워다. 이전까지 aws에 구성한 카프카 클러스터는 '서버'다. 즉 메세지를 처리하는 부분이긴 하지만 데이터를 주고받는 테스트를 위해서는 '클라이언트'가 필요하다. 그리고 python으로 컨슈머와 프로듀서를 구현해보도록 하자. 아, 그 전에 브로커의 클러스터를 생성했는데 이 각각의 브로커안에 데이터를 저장할 '토픽'이 필요하다 그래서 일단1개의 브로커 즉 하나의ec2 서버에서만 테스트를 해볼 것이다. 안에서 topic을 생성해보고, 프로듀셔/컨슈머끼리 메세지가 전송되는지 확인 *단일브로커(ec2) 1. kafka 서버 실행한 상태 [root@ip-172-31-11-151 kafka_2.11-2.1.0].. 2021. 3. 26.

[kafka 기초] AWS에 카프카 클러스터(kafka,zookeeper) 구축하기 역시 나는 똒똑하지 않아서 그냥 글로만 보고서 이해할 수 없다. 직접 해봐야한다. 아래의 내용 및 이미지는 [데브원영] 아파치 카프카 for begineers 강의 요약 및 추가 공부한 내용입니다. 감사합니다. Kafka 아키텍쳐 전체적인 kafka 아키텍쳐는 아래와 같다고 한다. 즉, 개념상 브로커 1대일 경우를 표현하는 일반적인 구조랄까 (테스트할때 그냥 개인컴퓨터 1대에서 설치하는 정도?) 그래도 대부분은 앞에서 용어로 들어본 것들이지만, '주키퍼'는 처음 보았다. (개인적으로 이름이 귀여웠다) 그림에서 보는 것 처럼 카프카와 주피커는 서로 별도의 어플리케이션이다. 별도이다. 그래서 카프카 환경을 구축하기 위해서는 카프카도 설치하고, 주키퍼도 설치해야한다. Zookeeper ZooKeeper는 Ka.. 2021. 3. 26.

데이터웨어하우스(Data Warehouse)란? 데이터웨어하우스 정보(data) + 창고(warehouse)가 결합한 의미로 의사결정에 도움을 주기 위해 분석가능한 형태로 변환한 데이터들이 저장되어 있는 중앙저장소 즉, 의사결정에 필요한 데이터가 들어있는 데이터베이스정도가 되겠다. 트랜잭션 시스템, RDB 및 기타 소스의 데이터들이 데이터웨어하우스에 들어간다 어플리케이션이나 운영시스템내부에서 raw data들을 모아두고, 이들 중 분석할 수 있는 데이터들을 창고처럼 쌓아둔 다음에, 이 데이터들을 데이터사이언티스같은 사람들이 BI나 SQL을 이용해서 데이터를 엑세스함 데이터웨어하우스가 왜 필요할까? 쿼리로 그냥DB에 접근헤서 분석하면 되지 않을까? 라는 생각이 들었다. 이런 궁금증을 해소한 자료를 찾았다. 참고출처 : bomwo.cc/posts/Data.. 2021. 3. 16.

데이터파이프라인(datapipeline)이란? 데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다.데이터파이프라인을 통해 어디에서든지 데이터를 편하게 접근하고, 분석할 수 있게 해준다. 왜, 어디에서, 어떻게 데이터를 수집할 것인가?부터 출발한다데이터를 효과적으로 가져오는것이 data-driven기업의 숙제다. 데이터를 한 지점에서 특정공간까지 가지고 오는데 장애물들이 있기 때문에 이걸 해결하는게 핵심 키.데이터파이프라인 구축 : 데이터의 추출, 변경, 결합, 검증 그리고 적재의 과정을 자동화 하는 것 여러 소프트웨어적인 수동작업들을 제거하고, 데이터가 각 지점을 순조롭게 흐르도록 flow를 만들어 주는 것 심지어 여러 데이터 스트림을 한번에 처리해야하고, 모든종류의 데이터를.. 2021. 3. 10.

데이터엔지니어, 돌고 돌아 다시 확신을 갖게 되다 사실 나는 2017년 어떤 카드사 대외활동을 계기로 데이터관련 분야로 큰 방향은 잡았었다. 처음이였다. 일을 상상하는 것만으로도 가슴이 뛴다고 생각하게 된 것은. 벌써부터 빨리 일 하고 싶다는 마음이 든 것은. 그동안 IT직무에 관해서 늘 회의감이 들기만 했던 나에겐 처음이였다. 바로 이거야! 라고 확신이 든 순간은. 하지만 그때만 해도 내가 알고 있는 데이터분야의 일은 그저 파이썬과 R을 가지고 할 수 있는 '데이터분석' 뿐이였다. 심지어 한창 '빅데이터'가 화두에 오르던 시기였다. 당시 엘리트 경영전공 문과생들의 레벨업 코스였다. 그런데 나는 IT전공이니까 데이터분석보다는 조금 더 데이터관련 전문적인 일을 하고 싶었다. 그때 대외활동으로 직접 카드사의 데이터를 만져볼 기회가 있었는데 정말 신기했다. .. 2021. 3. 10.

이전 1 ··· 3 4 5 6 다음

728x90

티스토리툴바