본문 바로가기
Book & Lesson

[책정리]빅데이터를 지탱하는 기술 1-3.파이썬에 의한 데이터처리

by 카프리썬_ 2021. 6. 17.
728x90
728x90

6월 선정도서 - 빅데이터를 지탱하는 기술

선정계기 - 데이터가 쌓이고 흐르는 전체적인 구조를 깊이 있게 이해할 수 있고,

미래의 데이터엔지니어로써 해야하는 업무들의 전반적인 흐름을 파악할 수 있을 것 같아 선정(기대가 된다

 

목차 

챕터1. 빅데이터의 기초지식

1-1. 빅데이터의 정착

1-2. 빅데이터시대의 데이터분석기반

1-3.스크립트 언어에 의한 특별분석과 데이터프레임

1-4. BI도구와 모니터링

 

 


 

데이터처리와 스크립트 언어(python)

전처리가 필요한 데이터가 있다.

api로 부터 데이터를 얻을 경우 원시데이터를 그대로 bi도구에서 읽을 수 없어 전처리가 필요하다.

이떄 많이 쓰는 것이 파이썬이랑 R.

 

R보다 파이썬이 인기있는 이유?

다양한 분야의 라이브러리 쉽게 사용가능 (수치계산용 : numpy(넘피)와 scipy(스키피), 데이터프레임 : pandas(판다스) )

외부시스템의 api를 호출하거나, 문자열처리가 필요한 전처리작업에 적합

 

데이터프레임

표 형식의 데이터를 추상화한 객체. 

스프레드 시트에 있는 하나의 시트 또는 데이터베이스에 있는 하나의 테이블을 통째로 하나의 객체로 취급한다. 

 

데이터프레임을 사용하면 좋은점?

스크립트 언어 안에서 데이터 가공과 집계를 할 수 있다. json데이터나 텍스트도 한번에 변환할 수 있다. 

 

웹서버의 액세스 로그 -> 데이터프레임(pandas)

웹서버의 액세스 로그를 데이터웨어하우스나 bi에서 그대로 읽을 수 없다.

그래서 파이썬 정규식을 사용해서 파싱하는 작업이 필요하다. 

이후 csv파일로 보존해서 bi도구로 읽으면 시각화도 가능하다. 

 

pandas를 쓰면 데이터가공에 편리하다. 특히 시간 서식에 맞추는 등 표준화를 처음부터 잘하면 데이터분석이 편해진다. 

[데이터전처리에 자주사용되는 pandas함수]

  • ix : 조건에 일치하는 데이터검색
  • drop : 지정한 행 혹은 컬럼 삭제
  • rename : 인덱스 값 혹은 컬럼명 변경 
  • dropna : 값이 없는 행 혹은 컬럼명 제외
  • fillna : 값이 없는 셀을 지정한 값으로 치환
  • apply : 각 칼럼 혹은 각 행에 함수 적용

 

시계열 데이터 ->데이터프레임(pandas)

시간을 인덱스로 해서 시계열 데이터를 집계할 수 있다. 

새로운 변수에 차례대로 값을 대입하면서 데이터를 가공. 

 

SQL결과 -> 데이터프레임(pandas)

SQL의 집계함수를 사용한 쿼리의 결과가 데이터프레임의 결과와도 같다.

데이터프레임은 표 형식의 모든 데이터를 손쉽게 다를 수 있다. 

 

데이터를 집계하는 부분에서 데이터웨어하우스나 데이터레이크를 이용하고, 그 결과를 데이터프레임으로 변환해두기

 

728x90
반응형