본문 바로가기
Data/Data Analysis

[Pandas 데이터전처리] 1. Numpy,Pandas 라이브러리 알아보기

by 카프리썬 2021. 7. 15.
728x90

데이터의 가공과 처리에 유용한 python의 라이브러리

데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 

파이썬 라이브러리를 활용한 데이터분석의 책 내용과 비슷한 것 같다.

맘에 드는 썸넬이군ㅎㅎ


Numpy(넘파이)

과학연산을 위한 라이브러리, 리스트, 배열, 매트릭스 연산 등을 빠르게 만들어주는 라이브러리 

 

일반적으로 대규모데이터의 리스트는 중첩된 자료를 처리하는게 느리고 복잡하지만 

numpy 라이브러리를 써서 처리 속도를 30~40배 빠르게 할 수 있다! 

import numpy as np 

넘파이 라이브러리를 통해 배열에 접근하는 함수는 다음과 같다. 

 

numpy로 1차원 배열접근

numpy로 2차원 배열접근

numpy를 사용해서 array에 접근하면 모든원소에 대해서 조건을 적용한 값을 빠르게 찾을 수 있다. 

Pandas 

파이썬으로 마치 프로그래밍 버전의 엑셀을 다루듯 고성능의 데이터 구조를 만들 수 있는 라이브러리

대표적으로 데이터처리를 위한 라이브러리

 

판다스 document : http://pandas.pydata.org/pandas-docs/stable/

 

pip3 install pandas as pd

판다스 라이브러리를 사용하면 대규모데이터를 아래와 같은 데이터구조로 사용한다.

  • 시리즈 (Series)
  • 데이터프레임 (DataFrame)

 

주로 판다스 라이브러리를 통해 사용하는 함수는 다음과 같다. 

  • pd.Series(inputdata)
  • pd.DataFrame(inputdata)
  • 데이터추출 및 인덱싱(loc,iloc)
  • 데이터조작 및 정렬
    • count()
    • value_counts()
    • sort_index(), sort_values()
    • sum(),max(),min(),mean()
    • drop(), dropna(),fillna()
    • astype()
    • apply()
    • categorical클래스 객체 
    • qcut()
    • set_Index(), rest_index()
  • 데이터병합 및 피봇 
    • merge()
    • concat()
    • groupby()

다음글에는 Pandas의 데이터구조에 대해서 정리하고,

여러가지 함수들의 사용법을 주피터로 확인해보면서 정리할 것이다. 

 

출처

numpy 함수예제

https://software-creator.tistory.com/22#recentComments

반응형