본문 바로가기
Book & Lesson

[Spark강의3-1] Spark 데이터처리 실습1

by 카프리썬_ 2021. 8. 22.
728x90
728x90

아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다

3강. Spark 데이터처리 실습1


실습환경  : docker로 zeppline실행해서 SparkSession연결 

사용언어 :  Scala (기본 Spark 연습)

 

1.필요한 데이터 다운로드 및 데이터프레임 변환

2. 데이터 조작 (실행계획 확인/ 정렬/임시view생성)

2-1. SQL : GROUP BY 결과

%sql로 SQL내용만 따로 확인 할 수 있음 

2-2. SQL : SUM, order 결과  

%sql로 SQL내용만 따로 확인 할 수 있음 (sql결과를 간단한 그래프로도 제공)

참고로, sql과 같은 결과를 dataframe으로 구현할 수도 있다.

 

3. 데이터프레임 생성하기

4.SQL이 아니라 Scala를 통해 집계구하기

728x90
반응형