6월 선정도서 - 빅데이터를 지탱하는 기술
선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고,
미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다
목차
챕터1. 빅데이터의 기초지식
1-1. 빅데이터의 정착
1-2. 빅데이터시대의 데이터분석기반
1-3.스크립트 언어에 의한 특별분석과 데이터프레임
1-4. BI도구와 모니터링
데이터처리와 스크립트 언어(python)
전처리가 필요한 데이터가 있다.
api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다.
이떄 많이 쓰는 것이 파이썬이랑 R.
R보다 파이썬이 인기있는 이유?
다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(넘피)와 scipy(스키피), 데이터프레임 : pandas(판다스) )
외부시스템의 api를 호출하거나, 문자열처리가 필요한 전처리작업에 적합
데이터프레임
표 형식의 데이터를 추상화한 객체.
스프레드 시트에 있는 하나의 시트 또는 데이터베이스에 있는 하나의 테이블을 통째로 하나의 객체로 취급한다.
데이터프레임을 사용하면 좋은점?
스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다. json데이터나 텍스트도 한번에 변환할 수 있다.
웹서버의 액세스 로그 -> 데이터프레임(pandas)
웹서버의 액세스 로그를 데이터웨어하우스나 bi에서 그대로 읽을 수 없다.
그래서 파이썬 정규식을 사용해서 파싱하는 작업이 필요하다.
이후 csv파일로 보존해서 bi도구로 읽으면 시각화도 가능하다.
pandas를 쓰면 데이터가공에 편리하다. 특히 시간 서식에 맞추는 등 표준화를 처음부터 잘하면 데이터분석이 편해진다.
[데이터전처리에 자주사용되는 pandas함수]
- ix : 조건에 일치하는 데이터검색
- drop : 지정한 행 혹은 컬럼 삭제
- rename : 인덱스 값 혹은 컬럼명 변경
- dropna : 값이 없는 행 혹은 컬럼명 제외
- fillna : 값이 없는 셀을 지정한 값으로 치환
- apply : 각 칼럼 혹은 각 행에 함수 적용
시계열 데이터 ->데이터프레임(pandas)
시간을 인덱스로 해서 시계열 데이터를 집계할 수 있다.
새로운 변수에 차례대로 값을 대입하면서 데이터를 가공.
SQL결과 -> 데이터프레임(pandas)
SQL의 집계함수를 사용한 쿼리의 결과가 데이터프레임의 결과와도 같다.
데이터프레임은 표 형식의 모든 데이터를 손쉽게 다를 수 있다.
데이터를 집계하는 부분에서 데이터웨어하우스나 데이터레이크를 이용하고, 그 결과를 데이터프레임으로 변환해두기
'Book & Lesson' 카테고리의 다른 글
[책정리]빅데이터를 지탱하는 기술2-2.열지향 스토리지에 의한 고속화 (0) | 2021.06.18 |
---|---|
[책정리]빅데이터를 지탱하는 기술 2-1. 크로스집계의 기본 (0) | 2021.06.18 |
[책정리] 빅데이터를 지탱하는 기술 1-4. BI도구와 모니터링 (0) | 2021.06.17 |
[책정리] 빅데이터를 지탱하는 기술 1-2. 빅데이터시대 데이터분석기반 (0) | 2021.06.16 |
[책정리] 빅데이터를 지탱하는 기술 1-1. 빅데이터의 기초지식(역사) (0) | 2021.06.16 |
[책정리] 빅데이터를 지탱하는 기술 목차 (0) | 2021.06.16 |