728x90
728x90
프로젝트(?)를 하면서 pandas를 계속 썼지만, 쓰던 함수만 쓰고 계속 검색하다보니 그렇게까지 익숙한 편은 아니였다.
그래서 개인적으로 다양한 데이터를 가지고 pandas를 더 공부해보고자 시작하는 글~!
가상쇼핑몰 고객주문 데이터
https://archive.ics.uci.edu/ml/datasets/Online+Retail
온라인 리테일 사이트의 2010년 12월부터 2011년 12월까지의 데이터 -> 약 500,000건 (꽤 많아보인다!)
1. 데이터불러오기 및 확인
앞에서 한번 처리하고 난 후 csv로 떨군 그 파일을 가져와서 사용한다.
2. 국가별 매출
groupby(기준컬럼) = 그룹화하고,
sum() ['컬럼명] = 그룹화한 상태에서 집계함수를 수행하고,
sort_valeus() = value를 기준으로 정렬
3. 연월별/요일별 매출
현재 InvoiceDate의 타입이 datetime이기 때문에 연도별/월별/요일별로 분해할 수 있다.
연도와 월별 매출
요일별 매출 (raw data자체에서 토요일은 없는것으로 확인!)
4. 시간대별 매출
마찬가지로 dt 를 가지고 시간까지 분해할 수 있다.
728x90
반응형
'🌿 Data Engineering > Data Analysis' 카테고리의 다른 글
추천시스템03. 아이템 기반 협업 필터링 (collaborative filtering) 구현 (1) | 2021.08.27 |
---|---|
추천시스템02. 콘텐츠기반 필터링(content based filtering) 구현 (0) | 2021.08.26 |
추천시스템01. 추천 시스템(Recommendation)이란? 유형 알아보기 (0) | 2021.08.26 |
[Pandas] 가상 쇼핑몰 고객주문 데이터 전처리1 - null처리 및 타입변경 (0) | 2021.08.24 |
[Pandas 데이터전처리] 3-2.Dataframe 조작함수2 apply,cut,set_index (0) | 2021.07.15 |
[Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬 (0) | 2021.07.15 |