728x90
728x90
아래의 글은 T아카데미 아파치 스파크 입문 강의를 듣고 정리한 내용입니다
4강. Spark 데이터처리 실습2
tip : 데이터프레임 명령어가 맞는지 확인하는 방법 -> 쿼리로 짜보고 그 실행결과가 같은지 확인
1.데이터 다운로드 및 확인(shell)
2. spark로 데이터로드 및 스키마확인 (base RDD)
3. 필요한 데이터만 데이터프레임으로 로딩(Transformation)
4. row 추출 및 생성
5. 컬럼 select
df.select("컬럼명", "컬럼명).show(N)
6. 컬럼 drop
df.drop(컬럼명).columns -> 근데 왜 컬럼이 살아있지?
7. 컬럼 filter 또는 where
df. filter( col(컬럼명) 조건)
df.where( 조건)
8. join
df , newdf join : df.union(newdf)
9. sort 또는 orderBy
df.sort(컬럼).show()
df.sort(desc(컬럼).show() : 내림차순
sort대신 orderBy써도 결과는 같음
10.null 처리
df.na.drop("any") : row의 컬럼값 하나라도 null값을 가지면 해당 row를 제거
df.na.drop("all") : 모든 컬럼의 값이 null이거나 NaN 인 경우에만 row를 제거
df.na.drop("all", Seq("컬럼명1","컬럼명2")) 특정컬럼에서 null처리
728x90
반응형
'Book & Lesson' 카테고리의 다른 글
[데엔스터디5] Airflow Deep Dive (0) | 2021.09.08 |
---|---|
[데엔스터디4] ETL/Airflow소개 (2) | 2021.09.03 |
[데엔스터디3] 데이터엔지니어를 위한 SQL 실습 (0) | 2021.08.25 |
[Spark강의4-1] Spark 데이터처리 실습2-DAG개념 (0) | 2021.08.23 |
[Spark강의3-2] Spark 데이터처리 실습1 - RDD개념 (0) | 2021.08.22 |
[Spark강의3-1] Spark 데이터처리 실습1 (0) | 2021.08.22 |