본문 바로가기
Tool & Setting

[Setting] [Intellj] pyspark 환경구성 하기

by 카프리썬 2021. 7. 26.
728x90

주피터를 안쓰고, 그냥 intellj에서 바로 spark를 쓸 수 있지 않을까 해서 찾아봤다.

일단 로컬에 spark가 설치되어 있어야한다. 

 

intellj에서 경로추가(Project Structure)

Add Content Root로 스파크를 설치했을때 지정했던 경로를 추가한다.

참고로, 스파크 실행과 실행경로 설정은 아래에서 확인할 수 있다.

2021.04.22 - Apache Spark 실행하기 | Spark설치와 pyspark사용 (궁금증미해결)

 

Apache Spark 실행하기 | Spark설치와 pyspark사용 (궁금증미해결)

와 이제 본격적으로 spark를 설치해서 해볼 준비가 되었다. 오늘의 목표는 Spark설치하고, RDD 자료구조 파악하기 * pyspark와 spark차이점은? * pyspark를 쓰려면 그냥 spark는 다운받지 않아도 되는건가? *

pearlluck.tistory.com

 

참고로, 스파크실행경로에서 바로 스파크를 실행할 수 있다. 

나 같은 경우는 C:\Spark\spark-3.0.2-bin-hadoop2.7\spark-3.0.2-bin-hadoop2.7 여기로 설정했다. 

 

pyspark 테스트해보기

실제로 intellj안에서 csv파일이나 바로 데이터를 가져와서 pyspark를 실행한 결과를 보았다.

테스트를 위해 test.csv를 임의로 만들어두고, spark를 스크립트를 실행했다..

실행결과는 아래와 같다. spark를 통해서 데이터프레임 형식으로 변형되었다. 

 

 

출처 https://www.youtube.com/watch?v=j8AcYWQuv-M 

 

반응형

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });