본문 바로가기
Data/Data Analysis

[Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬

by 카프리썬 2021. 7. 15.
728x90

DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법

데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 

아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다.


1. 데이터개수세기 : count()

NaN값은 세지 않는다. 

2. 카테고리값 세기 : value_counts()

각각의 값이 나온 횟수를 센다. 

파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산

- 시리즈에서 카테고리값 세기 

- 범주형 데이터에서 카테고리값 세기

- 데이터프레임에서 카테고리값 세기

3. 데이터정렬

- 시리즈에서 데이터 정렬

  • sort_index() : 인덱스를 기준으로 정렬
  • sort_value() : 데이터 값을 기준으로 정렬
  • 기본오름차순, ascending = True/False 오름차순/내림차순

- 데이터프레임에서 데이터 정렬

  • df.sort_index() : DF의 INDEX 기준 정렬
  • df.sort_values(by=기준열 ) : 특정열 값 기준 정렬
  • 기본오름차순, ascending = True/False 오름차순/내림차순

4. 데이터프레임조작 : 합계/평균/최대/최소

-합계 : 각 열의 합계 sum(axis=0), 각 행의 합계 sum(axis=1) , df.sum()함수 사용가능 

-평균 : 각 열의 합계 mean(axis=0), 각 행의 합계 mean(axis=1) 

-최대 : 각 열의 합계 max(axis=0), 각 행의 합계 max(axis=1) 

-최소 : 각 열의 합계 min(axis=0), 각 행의 합계 min(axis=1) 

5. 데이터프레임조작 : 추가/삭제/NaN값처리/타입변경

-추가 : 새로운 열추가 df['새로운 열 이름'] = 값, 새로운 행 추가 df.loc['새로운 행 인덱스'] = 값

-삭제 : 열 삭제 df('열이름',1) , 행삭제 df(열이름,0)

원본에 반영되지 않아 수정하려면 저장해야함 (추가로 del명령어는 원본에 바로 반영이 되는 삭제명령어)

- NaN 값처리 

dropna : NaN이 포함된 모든 열 삭제 df.dropna(axis=1), NaN이 포함된 모든 행 삭제 df.dropna(axis=0)

fillna(채우려는값): NaN값을 정해진 값으로 채움, 둘다 원본에 적용되지 않는다

-타입변경 : df.astype(변경할 타입) 원본에 적용되지 않는다. 

 

 

반응형