본문 바로가기
Book & Lesson

[책정리] 빅데이터를 지탱하는 기술 1-1. 빅데이터의 기초지식(역사)

by 카프리썬_ 2021. 6. 16.
728x90
728x90

챕터1. 빅데이터의 기초지식

1-1. 빅데이터의 정착

1-2. 빅데이터시대의 데이터분석기반

1-3.스크립트 언어에 의한 특별분석과 데이터프레임

1-4. BI도구와 모니터링

 

1장에서는 빅데이터 기술이 태어난 역사적 배경부터 시작해서 기본적인 용어를 정리하는 부분.

빅데이터와 대비해 이전부터 존재하던 스몰데이터 기술에 대한 설명.

파이썬 스크립트에 의한 데이터처리와 디스커버리를 통한 개념 이해 부분.


 

빅데이터의 역사

'빅데이터'를 접하게 된 것은 2011년 후반에서 2012년에 걸쳐 데이터처리에 분산시스템을 도입하기 시작했을 무렵.

그전에도 데이터 처리는 이뤄졌지만, 빅데이터라고 불리며 데이터를 비즈니스에 활용하자는 움직임 활발해짐.

하지만 여전히 빅데이터기술을 안심하고 사용할 수 있다고 말하긴 어려운 상황

실제로 데이터를 모아서 무엇을 할 것인가에 대한 해답도 내리기 어려운 실정

 

왜 빅데이터를 다루기가 어려운가?

  • 1. 데이터분석 방법을 모른다
  • 2. 데이터처리에 수고와 시간이 걸린다

 

데이터가 있어도 그 가치를 창조하지 못하면 의미가 없고, 

지식이 있어도 시간을 많이 소비한다면 할 수 있는것이 한정적이다. 

위 두가지를 모두 갖추고 나서야 비로소 가치있는 정보를 얻을 수 있다. 

 

이 책의 목적은 알고싶은 정보가 이미 있다는 전제하게 '어떻게 효율적으로 실행할 것인가?'를 생각하는 것


빅데이터 기술의 요구, 하둡과 NoSQL

'하둡'은 다수의 컴퓨터에서 대량의 데이터를 처리하기 위한 시스템이다.

예를 들어 전세계 웹페이지를 모아서 검색엔진을 만든다면, 방대한 데이터를 저장해둘 스토리지와 데이터를 순차적으로처리할 수 있는 구조가 필요한데 그러기 위해선 수백,수천대의 엄청나게 많은 컴퓨터가 필요할 것이다.

이걸 관리하는게 하둡이라는 프레임워크.

 

하둡은 구글에서 개발된 분산처리 프레임워크인 'MapReduce'를 참고해서 제작되었다.

초기에는 자바언어로 프로그래밍을 해야해서 간단히 사용하기 어려웠다.

SQL같은 쿼리언어를 하둡에서 실행하기 위한 소프트웨어로 'Hive'가 2009년에 개발되었다.

이를 통해 프로그래밍 없이 데이터를 집계할 수 있게 되서 점점 사용자가 확대되었다. 

 

'NoSQL'은 전통적인 RDB의 제약을 제거하는 것이 목표. RDB보다 읽고 쓰는게 빠르고, 분산처리에 뛰어나다. 

  • 키 밸류 스토어 (key-value store /KVS) : 다수의 키와 값을 관련지어서 저장
  • 도큐먼트 스토어 (document store) : JSON과 같은 복잡한 데이터구조 저장
  • 와이드 칼럼 스토어 (wide-column store) : 여러키를 사용해서 높은 확장성 제공

 

모여진 데이터를 나중에 집계하는게 목표인 하둡과 다르게 NoSQL은 애플리케이션에서 온라인으로 접속하는 디비.

이 둘을 조합함으로써 NoSQL에 데이터를 기록하고, 하둡으로 분산처리를 한다는 흐름이 2012년부터 정착되었다.

방대한 규모로 계속 증가하는 데이터에 대해 현실적인 비용으로 데이터를 처리하게 되는 당시 기술적인 방법.


분산시스템의 비즈니스이용 - 데이터웨어하우스의 공존

데이터분석을 기반으로 하는 데이터웨어하우스를 도입해왔다.

오랜기간에 걸쳐 데이터들을 축적하고, 그것을 분석함으로써 업무개선과 경영판단의 자료로 쓰인것.

분산시스템에 발전하면서 데이터웨어하우스 제품을 하둡으로 사용하는 경우가 증가함.

 

전통적인 데이터웨어하우스의 단점 : 확장성

대량의 데이터를 처리할 순 있으나 안정적인 성능을 실현하기 위해 HW와 SW가 통합된 장비가 필요하다.

데이터 용량을 늘리면 HW를 교체해야하는 등 확장하기가 쉽지 않았다. 

따라서 가속도적으로 늘어나는 데이터의 처리는 확장성이 뛰어난 하둡에 맡기고,

비교적 작은 데이터들을 데이터웨어하우스에 넣는 식


클라우드서비스에 따른 빅데이터의 활용

여러 컴퓨터에 분산 처리를 한다는 점이 빅데이터의 특징. 하지만 하드웨어를 준비하고, 관리하는 일은 간단하지 않다. 

클라우드시대로 인해 필요한 자원을 쉽게 확보할 수 있다는 점에서 언제든지 이용할 수 있는 환경이 마련 된 것 

 

데이터처리를 위한 클라우드 서비스

  • AWS EMR (Elastic MapReduce) : 클라우드를 위한 하둡
  • 구글 BigQuery : 데이터웨어하우스
  • AWS Redshift : 데이터웨어하우스

이로 인해 데이터웨어하우스를 쉽게 구축할 수 있고, 자체적으로 데이터분석기반을 마련할 수 있게 되었다. 


데이터 디스커버리 : 셀프서비스용 BI도구

데이터 디스커버리(data discovery)란 대화형으로 데이터를 시각화하여 가치있는 정보를 찾으려고 하는 프로세스로

데이터웨어하우스에 저장된 데이터를 시각화하려는 인기있는 방법이였다. 

BI도구는 예전부터 데이터웨어하우스와 조합되어 사용된 경영자용 시각화 시스템으로 대기업 IT부서에 도입된 도구.

셀프서비스용 도구는 이것을 개인도 도입할 수 있을 정도로 단순화 한것. 

 

728x90
반응형