728x90
728x90
데이터의 가공과 처리에 유용한 python의 라이브러리
데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다.
파이썬 라이브러리를 활용한 데이터분석의 책 내용과 비슷한 것 같다.
Numpy(넘파이)
과학연산을 위한 라이브러리, 리스트, 배열, 매트릭스 연산 등을 빠르게 만들어주는 라이브러리
일반적으로 대규모데이터의 리스트는 중첩된 자료를 처리하는게 느리고 복잡하지만
numpy 라이브러리를 써서 처리 속도를 30~40배 빠르게 할 수 있다!
import numpy as np
넘파이 라이브러리를 통해 배열에 접근하는 함수는 다음과 같다.
numpy로 1차원 배열접근
numpy로 2차원 배열접근
numpy를 사용해서 array에 접근하면 모든원소에 대해서 조건을 적용한 값을 빠르게 찾을 수 있다.
Pandas
파이썬으로 마치 프로그래밍 버전의 엑셀을 다루듯 고성능의 데이터 구조를 만들 수 있는 라이브러리
대표적으로 데이터처리를 위한 라이브러리
판다스 document : http://pandas.pydata.org/pandas-docs/stable/
pip3 install pandas as pd
판다스 라이브러리를 사용하면 대규모데이터를 아래와 같은 데이터구조로 사용한다.
- 시리즈 (Series)
- 데이터프레임 (DataFrame)
주로 판다스 라이브러리를 통해 사용하는 함수는 다음과 같다.
- pd.Series(inputdata)
- pd.DataFrame(inputdata)
- 데이터추출 및 인덱싱(loc,iloc)
- 데이터조작 및 정렬
- count()
- value_counts()
- sort_index(), sort_values()
- sum(),max(),min(),mean()
- drop(), dropna(),fillna()
- astype()
- apply()
- categorical클래스 객체
- qcut()
- set_Index(), rest_index()
- 데이터병합 및 피봇
- merge()
- concat()
- groupby()
다음글에는 Pandas의 데이터구조에 대해서 정리하고,
여러가지 함수들의 사용법을 주피터로 확인해보면서 정리할 것이다.
출처
numpy 함수예제
728x90
반응형
'🌿 Data Engineering > Data Analysis' 카테고리의 다른 글
[Pandas 데이터전처리] 3-2.Dataframe 조작함수2 apply,cut,set_index (0) | 2021.07.15 |
---|---|
[Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬 (0) | 2021.07.15 |
[Pandas 데이터전처리] 2-2.Pandas 데이터구조(Dataframe 인덱싱) (0) | 2021.07.15 |
[Pandas 데이터전처리] 2-2.Pandas 데이터구조 (DataFrame) (0) | 2021.07.15 |
[Pandas 데이터전처리]] 2-1.Pandas 데이터구조(Series) (0) | 2021.07.15 |
[Python] Pandas 사용법 (0) | 2021.04.28 |