본문 바로가기
🌴 DevOps/Cloud

[EMR] EMR이란? Elastic MapReduce 마스터노드 접속해보기

by 카프리썬_ 2021. 8. 8.
728x90
728x90

 

EMR이란?

Elastic MapReduce, AWS에 제공해주는 완전관리형 빅데이터 플랫폼이라고 볼 수 있다.

하둡(MapReduce), Spark, Hive, Zeppelin 등 오픈소스 프레임워크를 가지고 클러스터를 쉽게 구축해주는 서비스이다. 

여담으로 EC2도 Elastic Computing Cloud로 앞에 'Elastic'이 들어간다. 비슷한 느낌이다. 

 

EMR을 사용하면 뭐가 좋은가?

하둡이나 스파크 같이 널리사용되는 오픈소스 프레임워크를 규모에 구애받지 않고 원하는 용량으로 쉽게 생성가능

하둡클러스터의 설정관리 또는 컴퓨팅 파워와 용량에 대해 걱정하지 않고 데이터를 처리분석하는데 집중할 수 있다. 

-> 유연성과 확장성이 좋다 >>AWS공식문서 EMR사용시 이점

오토스케일링으로 클러스터를 확장하거나 축소할 수 있다.

클러스터 크기를 조절해서 인스턴스를 추가하거나 제거 할 수 있다.

 

모든 완전관리형 서비스가 그렇듯이 모든 인프라 구축과 운영에 대한 부담을 덜어줄 수 있는게 큰 장점

EMR의 하둡에코시스템을 간단하고 빠르게 세팅할 수 있다.

 

+비용은? 

  • Amazon EMR 요금은 클러스터 인스턴스의 EC2요금과 EMR 서비스 요금의 합으로 이루어짐
  • 클러스터가 시작된 시점부터 종료될 때까지 인스턴스 실행 시간(초당)
  • 인스턴스 유형(예: 스탠다드, 고성능 CPU, 고용량 메모리, 고용량 스토리지 등)에 따라 상이

클러스터와 노드

클러스터 : EC2인스턴스의 모음 

노드 : 클러스터의 각 인스턴스

 - 마스터노드 : 다른 노드간의 데이터 및 작업분배를 조정하며 클러스터를 관리하는 노드, 클러스터 상태 모니터링 

 - 코어노드 : 클러스터의 hdfs에 작업을 실행하고, 데이터를 저장하는 노드

 - 워커노드 : hdfs에 데이터를 저장하고, 작업만 실행하는 노드 

 

EMR 클러스터 구축하기

노드타입에 따라서 10분정도 걸리는 것 같다.

2021.08.07 - 음악추천챗봇9. AWS EMR 클러스터구축(Hadoop+Spark+Zeppelin)

 

음악추천챗봇9. AWS EMR 클러스터구축(Hadoop+Spark+Zeppelin)

1.EMR클러스터구성 1.소프트웨어 구성 : EMR 5.29.0 : Spark2.4.4 / Hadoop 2.8.5 / Zeppeline 0.8.2 2.하드웨어 : 네트워킹 구성 확인. 내 test-vpc의 public subnet을 사용하고 싶어서 하드웨어 구성탭에서 지..

pearlluck.tistory.com

쉽게 생각하면 그냥 하둡환경을 쉽게 생성해주고, ec2노드를 편하게 배포할 수 있다.

그래서 노드를 3개를 가진 클러스터를 생성하게 되면 아래처럼 ec2인스턴스가 돌아가고 있는걸 볼 수 있다.

 

마스터노드 접속해보기

똑같이 인스턴스에 접속하는 것처럼 접속하면 된다. 그래서 SSH접속을 위해 22포트 인바운드 룰도 추가해야한다.

 

hdfs dfsadmin -report 

클러스터정보확인

2개의 데이터노드 정보확인

yarn node --list 

노드의 상태확인 가능 

haddop fs -ls

하둡의 파일시스템(/apps, /tmp, /user/, /var) 확인가능

 

 

 

 

참고

https://aws.amazon.com/ko/getting-started/hands-on/analyze-big-data/services-costs/

 

서비스 및 비용

제품 설명: Amazon EMR은 Apache Spark, Presto, Hbase, Hive 등과 같은 인기 있는 빅 데이터 프레임워크의 최신 버전을 완전히 사용자 지정 가능한 클러스터에서 실행할 수 있게 해주는 관리형 하둡 서비스

aws.amazon.com

 

 

https://codethief.io/ko/aws-emr-tutorial-part-1/

 

[:en]AWS EMR Tutorial - Part 1[:ko]AWS EMR 튜토리얼 - Part 1 - CodeThief[:]

[:en]We’ll test MRjob or PySpark using AWS EMR. In part 1, we’ll launch the EMR and use it very naively using HDFS. From part 2 we’ll use EMR more correctly (using AWS CLI and S3).[:ko]AWS의 EMR이라는 서비스를 이용해서, MRJob이나 PySpar

codethief.io

 

728x90
반응형