728x90
728x90
아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다
3강. Spark 데이터처리 실습1
실습환경 : docker로 zeppline실행해서 SparkSession연결
사용언어 : Scala (기본 Spark 연습)
1.필요한 데이터 다운로드 및 데이터프레임 변환
2. 데이터 조작 (실행계획 확인/ 정렬/임시view생성)
2-1. SQL : GROUP BY 결과
%sql로 SQL내용만 따로 확인 할 수 있음
2-2. SQL : SUM, order 결과
%sql로 SQL내용만 따로 확인 할 수 있음 (sql결과를 간단한 그래프로도 제공)
참고로, sql과 같은 결과를 dataframe으로 구현할 수도 있다.
3. 데이터프레임 생성하기
4.SQL이 아니라 Scala를 통해 집계구하기
728x90
반응형
'Book & Lesson' 카테고리의 다른 글
[Spark강의4-2] Spark 데이터처리 실습2 -DF Transformation (0) | 2021.08.23 |
---|---|
[Spark강의4-1] Spark 데이터처리 실습2-DAG개념 (0) | 2021.08.23 |
[Spark강의3-2] Spark 데이터처리 실습1 - RDD개념 (0) | 2021.08.22 |
[Spark강의2] Spark의 실시간/배치 (0) | 2021.08.18 |
[Spark강의1] Spark의 개념과 활용 (0) | 2021.08.18 |
[데엔스터디2] 데이터엔지니어링을 위한 데이터웨어하우스(RedShift) (0) | 2021.08.15 |