[책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리

728x90

6월 선정도서 - 빅데이터를 지탱하는 기술

선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고,

미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다

챕터1. 빅데이터의 기초지식

1-1. 빅데이터의 정착

1-2. 빅데이터시대의 데이터분석기반

1-3.스크립트 언어에 의한 특별분석과 데이터프레임

1-4. BI도구와 모니터링

데이터처리와 스크립트 언어(python)

전처리가 필요한 데이터가 있다.

api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다.

이떄 많이 쓰는 것이 파이썬이랑 R.

R보다 파이썬이 인기있는 이유?

다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(넘피)와 scipy(스키피), 데이터프레임 : pandas(판다스) )

외부시스템의 api를 호출하거나, 문자열처리가 필요한 전처리작업에 적합

데이터프레임

표 형식의 데이터를 추상화한 객체.

스프레드 시트에 있는 하나의 시트 또는 데이터베이스에 있는 하나의 테이블을 통째로 하나의 객체로 취급한다.

데이터프레임을 사용하면 좋은점?

스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다. json데이터나 텍스트도 한번에 변환할 수 있다.

웹서버의 액세스 로그 -> 데이터프레임(pandas)

웹서버의 액세스 로그를 데이터웨어하우스나 bi에서 그대로 읽을 수 없다.

그래서 파이썬 정규식을 사용해서 파싱하는 작업이 필요하다.

이후 csv파일로 보존해서 bi도구로 읽으면 시각화도 가능하다.

pandas를 쓰면 데이터가공에 편리하다. 특히 시간 서식에 맞추는 등 표준화를 처음부터 잘하면 데이터분석이 편해진다.

[데이터전처리에 자주사용되는 pandas함수]

ix : 조건에 일치하는 데이터검색
drop : 지정한 행 혹은 컬럼 삭제
rename : 인덱스 값 혹은 컬럼명 변경
dropna : 값이 없는 행 혹은 컬럼명 제외
fillna : 값이 없는 셀을 지정한 값으로 치환
apply : 각 칼럼 혹은 각 행에 함수 적용

시계열 데이터 ->데이터프레임(pandas)

시간을 인덱스로 해서 시계열 데이터를 집계할 수 있다.

새로운 변수에 차례대로 값을 대입하면서 데이터를 가공.

SQL결과 -> 데이터프레임(pandas)

SQL의 집계함수를 사용한 쿼리의 결과가 데이터프레임의 결과와도 같다.

데이터프레임은 표 형식의 모든 데이터를 손쉽게 다를 수 있다.

데이터를 집계하는 부분에서 데이터웨어하우스나 데이터레이크를 이용하고, 그 결과를 데이터프레임으로 변환해두기

728x90

저작자표시 비영리 변경금지 (새창열림)

'Book & Lesson' 카테고리의 다른 글

[책정리]빅데이터를 지탱하는 기술2-2.열지향 스토리지에 의한 고속화 (0)	2021.06.18
[책정리]빅데이터를 지탱하는 기술 2-1. 크로스집계의 기본 (0)	2021.06.18
[책정리] 빅데이터를 지탱하는 기술 1-4. BI도구와 모니터링 (0)	2021.06.17
[책정리] 빅데이터를 지탱하는 기술 1-2. 빅데이터시대 데이터분석기반 (0)	2021.06.16
[책정리] 빅데이터를 지탱하는 기술 1-1. 빅데이터의 기초지식(역사) (1)	2021.06.16
[책정리] 빅데이터를 지탱하는 기술 목차 (0)	2021.06.16

데엔잘하고싶은데엔

[책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리

목차

챕터1. 빅데이터의 기초지식

데이터처리와 스크립트 언어(python)

데이터프레임

웹서버의 액세스 로그 -> 데이터프레임(pandas)

시계열 데이터 ->데이터프레임(pandas)

SQL결과 -> 데이터프레임(pandas)

'Book & Lesson' 카테고리의 다른 글

티스토리툴바

[책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리

목차

챕터1. 빅데이터의 기초지식

데이터처리와 스크립트 언어(python)

데이터프레임

웹서버의 액세스 로그 -> 데이터프레임(pandas)

시계열 데이터 ->데이터프레임(pandas)

SQL결과 -> 데이터프레임(pandas)

'Book & Lesson' 카테고리의 다른 글

관련글

티스토리툴바