본문 바로가기
🌿 Data Engineering/Study

[Spark] Apache Spark란? | 빅데이터 처리단계 -수집과 저장/ETL/HBase

by 카프리썬_ 2021. 4. 21.
728x90
728x90

Spark를 알아보기 위해 빅데이터 처리의 5단계를 알아보았다.

이제 그 각각의 단계를 조금 자세히 살펴보겠다.

특히 여기 수집과 저장단계는 늘 관심있는 분야였기에 자주 많이 들어봐서 그래도 익숙했다. 

수집

데이터는 어디에서 수집될까?

크게 외부와 내부로 나누어진다.

내부는, 자체적으로 보유한 내부파일시스템, RDBMS에 저장된 데이터들 -> 정형데이터일 것이고

외부는 무궁무진하다. 외부이미지,영상,문서,텍스트 등 그 어떤것이든 다 수집할 수 있는 데이터다.

 

어떻게 수집하는가?

내가 가장 와닿고 가장 많이 해본순서대로 나열하자면

1.크롤링

인터넷에 공개되어 있는 데이터들을 수집하는 것이다. 

(Python으로 셀레니움이나 beautifulsoup 라이브러리를 이용했다)

2. OpenAPI와 RSS리더

필요한 데이터들을 가져다 쓸 수 있게 말그대로 수집하라고 제공해준 방법이다. 

(AWS What's new 뉴스소식 데이터들도 RSS리더를 이용했다)

3. iot기기의 센서

각종 센서들을 설치해서 이미지,음성,온도 등을 직접 수집할 수 있게 되었다.

 

여기까지 직접 사용해보기도 하면서 데이터를 수집해왔던 것 같다.

이밖에 실무에선 더 자주 쓰이지만 기회가 없어 접해보지 못헀던 방법도 있다. 

4.로그수집기

내부에 있는 웹 서버 로그를 수집하는 것이다. 

웹로그, 트랜잭션로그, 클릭로그, db로그, 사용자로그 등 어플리케이션을 운영하는데 있어서

중요한 지표가 되는 로그 또한 데이터의 한 종류로 볼 수 있다.

5.ETL

데이터 추출(extract), 변환(Transfer), 적재(Load)의 약자이다.

다양한 데이터소스 데이터를 취합하여 데이터를 추출하고,

하나의 공통형식으로 변환하여 데이터웨어하우스에 적재하는 과정이다. 

ETL작업을 하면서 필요하지 않은 데이터들을 정리하는 전처리작업과 저장작업도 함께 진행한다. 

출처 https://ikkison.tistory.com/70?category=785566

2020.01.17 - OLAP/OLTP/DW/ETL 용어정리

 

OLAP/OLTP/DW/ETL 용어정리

1.OLTP: 트랜잭션 기반으로 하는 데이터작업 2.OLAP : 데이터들을 효과적으로 활용하기 위해 여러 관점에서 분석해서 정보화 하는 작업 *둘의 차이점 OLTP는 현재 업무의효율적인 처리에만관심이

pearlluck.tistory.com

2021.03.10 - 데이터파이프라인(datapipeline)이란?

 

데이터파이프라인(datapipeline)이란?

데이터엔지니어의 주요업무 중 하나, 데이터파이프라인 개발 특히 이때 데이터는 대용량데이터, 실시간데이터 등등 다양한 데이터이다. 데이터파이프라인을 통해 어디에서든지 데이터를 편하

pearlluck.tistory.com

저장

데이터는 어디에서 수집될까?

데이터의 종류에 따라 저장하는 공간도 다르다. 그리고 그 공간에 접근하는 방식이 다르다. 

 

접근방식에 따라 저장기술을 알아보자면 이렇다

1. 분산파일시스템

기본적으로 파일에 저장하는 파일시스템이지만, 네트워크로 공유하는 여러 컴퓨터들에 저장하는 방식이다. 

예를 들어 Google File System(GFS), Haddop Distributed File System(HDFS), AWS의 S3가 있다

2.NoSQL

RDBMS가 아니라 SQL을 사용하지 않는 데이터저장장치다 

예를 들어, HBase, Cassandra가 있다. 

3.병렬DBMS

데이터베이스처리를 동시에 수행하는 DBMS이다.  (오 이건 처음들어본다)

예를 들어, VoltDB, SQP HANA, Vertica, Greenplum가 있다고 한다 (다 처음들어본다..)

4.네트워크 구성저장시스템

서로다른 종류의 데이터저장장치를

하나의 데이터서버에 연결해서 총괄적으로 데이터를 저장하는 방식이다.

예를 들어, NAS(Network Attached Storage), SAN(Storage Area Network)가 있다 

 

 

728x90
반응형