본문 바로가기
Data/Data Analysis

[Pandas 데이터전처리] 2-2.Pandas 데이터구조 (DataFrame)

by 카프리썬 2021. 7. 15.
728x90

pandas의 기본적인 데이터구조인 Series와 DataFrame

데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다.

아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다.


pandas를 사용하기에 앞서 numpy와 pandas 패키지를 모두 import해야한다.
import numpy as np
import pandas as pd

DataFrame (데이터 프레임)

엑셀의 스프레드시트와 같은 개념으로, 2차원 행렬 데이터에 인덱스를 붙인 구조 (행과 열로 만들어진 2차원 배열)

데이터프레임의 각 열은 시리즈로 구성되어 있다. 

 

1. 데이터프레임 생성 : pd.DataFrame()

데이터프레임을 생성하는 방법은 아래와 같이 4가지 경우

1) 리스트로 데이터프레임 만들기

하위리스트의 원소의 개수가 다를 경우 None값저장 

2) 딕셔너리로 데이터프레임 만들기

key는 컬럼이 된다. value는 list로 형태

3) 시리즈로 데이터프레임 만들기 

시리즈로 각각의 열을 정의

4) csv 데이터로 데이터프레임 만들기

pandas.read_csv() 함수 사용

여기 에서 데이터셋을 받아올 수 있음 

 

2. 인덱스와 컬럼

1) 인덱스와 컬럼

  • 인덱스(index) : 각 아이템을 특정할 수 있는 고유의 값 
  • 컬럼(column) : 각각의 특성을 나타냄
  • 직접 인덱스와 컬럼이름을 지정할 수 도 있음 

2) 데이터파악하기

  • shape : 전체양 확인 
  • describe : 숫자형 데이터의 통계치 계산 
  • info : 데이터타입, 각 아이템 개수 출력 

describe를 이용하면, 연산이 가능한 숫자를 가진 컬럼을 뽑아내고, 기본통계치 (count,mean,min,max 25%,90% 등) 확인

 

3. 데이터프레임 전치

  • 전치 : 행과열을 바꿈 (df.T)
  • 전치한 결과는 원본데이터에 반영되지 않는다. 

 

4. 열추가, 열갱신,열삭제

  • 열 추가 : df[열이름] = values
  • 열 갱신 : df[열이름] = values
  • 열 삭제 : del df[열이름]
  • 이때 조작결과는 원본데이터에 반영된다.
  • 데이터가 일치하지 않으면 (없는데 삭제하거나, 없는데 갱신하거나 )에러발생
반응형