DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법
데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다.
아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다.
1. 데이터개수세기 : count()
NaN값은 세지 않는다.
2. 카테고리값 세기 : value_counts()
각각의 값이 나온 횟수를 센다.
파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산
- 시리즈에서 카테고리값 세기
- 범주형 데이터에서 카테고리값 세기
- 데이터프레임에서 카테고리값 세기
3. 데이터정렬
- 시리즈에서 데이터 정렬
- sort_index() : 인덱스를 기준으로 정렬
- sort_value() : 데이터 값을 기준으로 정렬
- 기본오름차순, ascending = True/False 오름차순/내림차순
- 데이터프레임에서 데이터 정렬
- df.sort_index() : DF의 INDEX 기준 정렬
- df.sort_values(by=기준열 ) : 특정열 값 기준 정렬
- 기본오름차순, ascending = True/False 오름차순/내림차순
4. 데이터프레임조작 : 합계/평균/최대/최소
-합계 : 각 열의 합계 sum(axis=0), 각 행의 합계 sum(axis=1) , df.sum()함수 사용가능
-평균 : 각 열의 합계 mean(axis=0), 각 행의 합계 mean(axis=1)
-최대 : 각 열의 합계 max(axis=0), 각 행의 합계 max(axis=1)
-최소 : 각 열의 합계 min(axis=0), 각 행의 합계 min(axis=1)
5. 데이터프레임조작 : 추가/삭제/NaN값처리/타입변경
-추가 : 새로운 열추가 df['새로운 열 이름'] = 값, 새로운 행 추가 df.loc['새로운 행 인덱스'] = 값
-삭제 : 열 삭제 df('열이름',1) , 행삭제 df(열이름,0)
원본에 반영되지 않아 수정하려면 저장해야함 (추가로 del명령어는 원본에 바로 반영이 되는 삭제명령어)
- NaN 값처리
dropna : NaN이 포함된 모든 열 삭제 df.dropna(axis=1), NaN이 포함된 모든 행 삭제 df.dropna(axis=0)
fillna(채우려는값): NaN값을 정해진 값으로 채움, 둘다 원본에 적용되지 않는다
-타입변경 : df.astype(변경할 타입) 원본에 적용되지 않는다.
'🌿 Data Engineering > Data Analysis' 카테고리의 다른 글
[Pandas] 가상 쇼핑몰 고객주문 데이터 전처리2 - 국가별,월별,요일별,t시간대별 매출 (0) | 2021.08.24 |
---|---|
[Pandas] 가상 쇼핑몰 고객주문 데이터 전처리1 - null처리 및 타입변경 (0) | 2021.08.24 |
[Pandas 데이터전처리] 3-2.Dataframe 조작함수2 apply,cut,set_index (0) | 2021.07.15 |
[Pandas 데이터전처리] 2-2.Pandas 데이터구조(Dataframe 인덱싱) (0) | 2021.07.15 |
[Pandas 데이터전처리] 2-2.Pandas 데이터구조 (DataFrame) (0) | 2021.07.15 |
[Pandas 데이터전처리]] 2-1.Pandas 데이터구조(Series) (0) | 2021.07.15 |