728x90
728x90
주피터를 안쓰고, 그냥 intellj에서 바로 spark를 쓸 수 있지 않을까 해서 찾아봤다.
일단 로컬에 spark가 설치되어 있어야한다.
intellj에서 경로추가(Project Structure)
Add Content Root로 스파크를 설치했을때 지정했던 경로를 추가한다.
참고로, 스파크 실행과 실행경로 설정은 아래에서 확인할 수 있다.
2021.04.22 - Apache Spark 실행하기 | Spark설치와 pyspark사용 (궁금증미해결)
참고로, 스파크실행경로에서 바로 스파크를 실행할 수 있다.
나 같은 경우는 C:\Spark\spark-3.0.2-bin-hadoop2.7\spark-3.0.2-bin-hadoop2.7 여기로 설정했다.
pyspark 테스트해보기
실제로 intellj안에서 csv파일이나 바로 데이터를 가져와서 pyspark를 실행한 결과를 보았다.
테스트를 위해 test.csv를 임의로 만들어두고, spark를 스크립트를 실행했다..
실행결과는 아래와 같다. spark를 통해서 데이터프레임 형식으로 변형되었다.
출처 https://www.youtube.com/watch?v=j8AcYWQuv-M
728x90
반응형
'Tool & Setting' 카테고리의 다른 글
[Tool] [Kotlin] logger로 로그 찍는 꿀팁! + Grep Console 플러그인 (0) | 2022.02.04 |
---|---|
[Setting] [VScode] AWS EC2 (Linux) SSH 접속하기 (2) | 2021.09.08 |
[Setting][Intellj] 파이썬 가상환경 venv 설정 (0) | 2021.08.25 |
[Spark] Docker로 jupyter에서 spark 환경 만들기 (0) | 2021.07.26 |
주피터 노트북 (Jupyter Notebook) 아나콘다 없이 설치 (0) | 2021.07.07 |
[Setting] [VScode] git 터미널 연결하기 (기본 터미널 변경) (0) | 2021.06.24 |