본문 바로가기
반응형

🌿 Data Engineering/Data Analysis17

[Pandas 데이터전처리] 3-2.Dataframe 조작함수2 apply,cut,set_index DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 6. 동일한 연산반복 : apply() 동일한 연산을 모든열에 혹은 모든 행에 반복 적용하고자 할때 사용 apply(반복적용할 함수, axis=0/1) : 열마다(0), 행마다(1), 생략시 기본값0 집계함수는 행/단위 백터화연산을 수행하기 때문에 굳이 apply()를 쓸 필요가 없다. lambda 함수나 사용자 정의 함수를 각 열 또는 행에 일괄 적용시키기 위해 사용 7. 데이터변형(관측데이터->범주형데이터) : cut(), 카테고리객체 값의 크기를 기준으로하여 카테고리 값.. 2021. 7. 15.
[Pandas 데이터전처리] 3-1.Dataframe 조작함수1. value_counts(), 정렬 DataFrame으로 데이터를 조작하기 위한 여러가지 함수의 사용방법 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 1. 데이터개수세기 : count() NaN값은 세지 않는다. 2. 카테고리값 세기 : value_counts() 각각의 값이 나온 횟수를 센다. 파라미터 normalize=True 를 사용하면 각 값 및 범주형 데이터의 비율을 계산 - 시리즈에서 카테고리값 세기 - 범주형 데이터에서 카테고리값 세기 - 데이터프레임에서 카테고리값 세기 3. 데이터정렬 - 시리즈에서 데이터 정렬 sort_index() : 인덱스를 기준으로 정렬 sort_value() : 데이터 값을 기준으로 .. 2021. 7. 15.
[Pandas 데이터전처리] 2-2.Pandas 데이터구조(Dataframe 인덱싱) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. 데이터프레임 인덱싱방법 1. 열기준 인덱싱 2. 인덱서를 사용하지 않는 행기준 인덱싱 3. 인덱서를 사용하는 행기준 인덱싱 1. 열기준인덱싱 1) 하나의 열추출 하나의 열을 가지고 오는 방법 : df[컬럼명] -> 그 결과는 시리즈 타입을 가지고 있다. 2) 2개이상의 열추출 데이터프레임으로 리턴받고자 하면 : df[[컬럼명]] -> [컬럼명]을 리스트형태로 사용한다. 컬럼명이 문자열일 경우, 수치인덱스를 사용할 수 없다. 위치인덱싱(index번호로 찾는것) 을 사용할 수 없어.. 2021. 7. 15.
[Pandas 데이터전처리] 2-2.Pandas 데이터구조 (DataFrame) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. pandas를 사용하기에 앞서 numpy와 pandas 패키지를 모두 import해야한다. import numpy as np import pandas as pd DataFrame (데이터 프레임) 엑셀의 스프레드시트와 같은 개념으로, 2차원 행렬 데이터에 인덱스를 붙인 구조 (행과 열로 만들어진 2차원 배열) 데이터프레임의 각 열은 시리즈로 구성되어 있다. 1. 데이터프레임 생성 : pd.DataFrame() 데이터프레임을 생성하는 방법은 아래와 같이 4가지 경우 1) 리스트로.. 2021. 7. 15.
[Pandas 데이터전처리]] 2-1.Pandas 데이터구조(Series) pandas의 기본적인 데이터구조인 Series와 DataFrame 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 아래의 주피터내용은 여기 깃허브에서 확인할 수 있습니다. pandas를 사용하기에 앞서 numpy와 pandas 패키지를 모두 import해야한다. import numpy as np import pandas as pd Series(시리즈) 1차원 배열의 값에 대응되는 인덱스를 부여할 수 있는 구조 1. 시리즈 정의 : pd.Series() python의 list나 numpy가 array인자로 입력된다. 시리즈의 결과는 왼쪽에 index값, 오른쪽에 value가 동시에 확인된다. 왼쪽결과는 일반적인 series를 정의한 경우이고, 오른.. 2021. 7. 15.
[Pandas 데이터전처리] 1. Numpy,Pandas 라이브러리 알아보기 데이터의 가공과 처리에 유용한 python의 라이브러리 데이터엔지니어링/데이터사이언티스트 교육을 통해 배운내용을 복습하고, 추가로 공부한 내용을 정리하였습니다. 파이썬 라이브러리를 활용한 데이터분석의 책 내용과 비슷한 것 같다. Numpy(넘파이) 과학연산을 위한 라이브러리, 리스트, 배열, 매트릭스 연산 등을 빠르게 만들어주는 라이브러리 일반적으로 대규모데이터의 리스트는 중첩된 자료를 처리하는게 느리고 복잡하지만 numpy 라이브러리를 써서 처리 속도를 30~40배 빠르게 할 수 있다! import numpy as np 넘파이 라이브러리를 통해 배열에 접근하는 함수는 다음과 같다. numpy로 1차원 배열접근 numpy로 2차원 배열접근 numpy를 사용해서 array에 접근하면 모든원소에 대해서 조건.. 2021. 7. 15.
[Python] Pandas 사용법 pd_data=pd.DataFrame.from_dict(dict_data,orient='index') pd_data=pd_data.transpose() result = pd.concat(data_list,ignore_index=True) stml.tistory.com/18 [pandas] append & concat-여러 텍스트 파일을 for 문으로 불러서 하나로 합치기 연도별로 같은 변수를 가진 데이터가 있다. year라는 열을 새로 만들면서 전체 파일을 하나로 합치고 싶음. - 숫자부분을 의미하는 정규표현식 %d 라는 표현을 써서 폴더명의 뒤에 년도 부분이 계 stml.tistory.com +각자 하나씩 dataframe을 갖고 있었는데, 그래프를 그리기 위해서 하나의 데이터프레임으로 만들어야했다. .. 2021. 4. 28.
728x90