본문 바로가기
Book & Lesson

[Spark강의4-2] Spark 데이터처리 실습2 -DF Transformation

by 카프리썬_ 2021. 8. 23.
728x90
728x90

아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다

4강. Spark 데이터처리 실습2


tip : 데이터프레임 명령어가 맞는지 확인하는 방법 -> 쿼리로 짜보고 그 실행결과가 같은지 확인

 

1.데이터 다운로드 및 확인(shell)

2. spark로 데이터로드 및 스키마확인 (base RDD)

3. 필요한 데이터만 데이터프레임으로 로딩(Transformation)

4. row 추출 및 생성 

 5. 컬럼 select 

df.select("컬럼명", "컬럼명).show(N)

6. 컬럼 drop 

df.drop(컬럼명).columns -> 근데 왜 컬럼이 살아있지? 

7. 컬럼 filter 또는 where 

df. filter( col(컬럼명) 조건) 

df.where( 조건) 

8. join

df , newdf join : df.union(newdf)

9. sort 또는 orderBy

df.sort(컬럼).show() 

df.sort(desc(컬럼).show() : 내림차순 

sort대신 orderBy써도 결과는 같음

10.null 처리

df.na.drop("any") :  row의 컬럼값 하나라도 null값을 가지면 해당 row를 제거

df.na.drop("all") :  모든 컬럼의 값이 null이거나 NaN 인 경우에만 row를 제거

df.na.drop("all", Seq("컬럼명1","컬럼명2")) 특정컬럼에서 null처리 

728x90
반응형