본문 바로가기
반응형

DevOps94

[Docker] (보류) 도커허브에 이미지 배포 +TroubleShooting 지금까지 생성한 이미지를 도커허브에 배포한다. 마지막에 생성한 zeppelin 이미지가 전체적으로 java,ubuntu,spark,hadoop,zeppelin이 포함된 이미지가 된다. 그래서 이걸 도커허브에 올려보겠다. 그럼 다른사람들이랑 공유할 수 도 있고 내가 외부에 잇을떄 이걸로 가져올수도 있는것(깃처럼) docker 로그인 이미지배포 도커계정의 id,pw입력 가장 마지막에 생성한 zeppelin 이미지를 배포해볼 것이다 docker tag [push할 image ID or name] [docker hub ID]/[image name]:[version] docker push [docker hub ID]/[레파지토리]:[tag] 도커허브확인 Troubleshooting zeppelin에서 python.. 2021. 7. 27.
[Docker]빅데이터 분석환경 구성4-Zeppelin0.9 설치 2021.07.27 - [Docker] 빅데이터 분석환경 구성1-Ubuntu&Java설치 2021.07.27 - [Docker] 빅데이터 분석환경구성2-Hadoop 2.7.7 2021.07.27 - [Docker] 빅데이터 분석환경구성3-Spark 3.0설치 2021.07.27 - [Docker]빅데이터 분석환경 구성4-Zeppelin0.9 설치 4.Zeppelin 이어서 spark가 설치된 이미지를 사용해서 컨테이너를 생성한다. 1. 컨테이너 생성 (zeppelin) docker run -it --name 컨테이너이름 image이름 2. zeppelin 설치 2-1. zeppelin 다운 및 압축해제 여기 에서 zeppelin버전을 선택해서 다운받을 링크를 복사한다. wget https://downlo.. 2021. 7. 27.
[Docker] 빅데이터 분석환경구성3-Spark 3.0설치 3.Spark 이어서 java,hadoop이 설치된 이미지를 사용해서 컨테이너를 생성한다. 1. 컨테이너 생성 (spark) docker run -it --name 컨테이너이름 image이름 2. spark 설치 및 환경설정 2-1. spark다운 및 압축해제 여기 에서 spark버전을 선택해서 다운받을 링크를 복사한다. wget http://apache.mirror.cdnetworks.com/spark/spark-3.0.3/spark-3.0.3-bin-hadoop2.7.tgz tar xvfz spark-3.0.3.tgz 2-2. 파일이동 및 심볼링크(spark) 등록 압축을 푼 폴더를 홈디렉토리로 이동한다 mv spark-3.0.3-bin-hadoop2.7 /root 그리고 그 경로를 spark라고 심.. 2021. 7. 27.
[Docker] 빅데이터 분석환경구성2-Hadoop 2.7.7 이어서 java가 설치된 Ubuntu컨테이너안에 hadoop을 설치해본다. 2. Hadoop 이전에 java까지 설치한 컨테이너에 접속하여 아래의 내용을 진행한다. 1. hadoop설치 및 환경설정 1-1. hadoop 다운 및 압축해제 wget https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/hadoop-2.7.7.tar.gz 1-2. 심볼링크(hadoop) 등록 압축을 푼 폴더를 홈디렉토리로 이동한다 linux폴더이동 mv hadoop-2.7.7/ ~ (root에 저장) 그리고 그 경로를 java라고 심볼링크를 등록한다 1-3.환경변수설정 이제 환경변수를 등록한다 환경변수등록 파일 열기 vi ~/.bashrc vi ~/.bashrc에서 아래와 .. 2021. 7. 27.
[Docker] 빅데이터 분석환경 구성1-Ubuntu&Java설치 실행환경을 어디서든지 가능하도록 docker로 이미지만들고, docker허브에 배포하기까지 각각의 이미지를 commit해서 쌓아가는 식. docker를 실행하는 OS는 linux 사전에 아래와 같은 명령어로 docker가 설치되어 있어야한다 sudo yum -y upgrade sudo yum -y install docker docker -v 1. OS(Ubuntu) & JAVA 1-1. ubuntu이미지 받아옴 docker pull ubuntu:18.04 1-2. unbunt접속 docker run --it --name hadoop ubuntu:18.04 컨테이너이름 hadoop 사용한 이미지 ubuntu:18.04 아래와 같은 필요한 패키지 설치 apt-get install net-tools : ifc.. 2021. 7. 27.
[Athena] parquet형식 S3 데이터 가져오기 현재상황 s3에 parquet형태의 데이터가 저장되어 있다. 이제 이 데이터를 아테나로 가져와서 sql쿼리를 날려볼 것이다. 2021.06.26 - 🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 1. 데이터베이스 생성 앗, 데이터베이스를 생성하기 전에 S3쿼리 쿼리 결과의 출력 위치를 지정해야한다. Amazon S3에서 쿼리 결과 버킷의 위치를 ​​지정하는 경우는 위에 "set up a query result location in Amazon S3" 간다. 그렇지 않으면 아래와 같은 오류가 생긴다.. >>구글링 athena로 처리한 결과를 저장할 폴더를 s3에 따로 생성해두고, 그 위치를 지정한다. 2. 테이블생성 이미 s3에는 dt라는 날짜기준으로 파티셔닝을 해둔 상태. 그래서.. 2021. 6. 25.
⚡[Athena] S3에 저장된 데이터활용하기 | 데이터파티셔닝과 압축 프로젝트를 진행하던 중 athea로 s3에 적재된 데이터들을(데이터레이크) 쿼리해야하는 일이 생겼다. 사실 boto3로 athena를 처리하지만, 실제로 콘솔에서도 익숙해지기 위해 athena를 파볼예정! 로그를 적재하는 목적으로 사용할 수도 있다 -> 다음엔 웹로그를 적재해봐야지! DB에서 로그를 S3에서 동일하게 가져올때 제약이 있다. 로그를 가져올때 조건을 거는부분, 많은 양의 압축된 로그파일을 로드하고, 압축을 푸는데 시간이 많이 소요. 이러한 문제를 아테나를 통해 해결할 수 있다. AWS Athena란? s3에서 표준 SQL을 사용하여 데이터를 쉽게 바로 분석할 수 있는 대화형쿼리서비스 아테나에 데이터가 저장되어 있는 S3를 설정해두고, 테이블 생성후, 쿼리를 실행하면 -> 데이터를 가져올 수 .. 2021. 6. 17.
[DynamoDB] DynamoDB란? 파티션키와 정렬키 DynamoDB란? 완전관리형 NoSQL기반 데이터베이스 서비스. Key-Value형태를 제공하며 스키마가 따로 정해져 있지 않음. 장점 JSON형태로 데이터를 저장하고, 수평확장(Scale-out)이 쉽고 유연하다. 질의 속도가 빨라 대량의 비정형 데이터처리에 용이 이 밖에도 완전관리형 데이터베이스 시스템으로 스토리지가 꽉차면 알아서 늘어난다거나, 일정기간마다 백업을 한다거나, 트래픽이 급증하면 성능을 조절하는 등 개발자는 데이터 조작 및 스키마 정의에만 신경쓰면 된다. 단점 조인이 불가능하므로 연산이 다양하지 못하다 2020.01.19 - 정형데이터 vs 비정형데이터 (RDBMS VS NOSQL) DynamoDB 구성 테이블 : 데이터레코드의 집합. 데이터를 테이블에 저장. 항목(Item) :테이블에.. 2021. 6. 15.
[AWS] 람다에서 Python 패키지 사용하기 | Layer(계층)란? 맨날 하는데 맨날 까먹고 찾아보길래 직접 정리해보려고 한다. 람다에서 python을 실행하는데 이런 오류가 났다면? 패키지가 없는것이다! Unable to import module 'lambda_function': No module named 'requests' 그래서 패키지를 lambda에 넣어줘야하는데 이떄 layer를 추가해주면 된다. 즉, 람다에서 쓸 패키지들을 따로 모아 zip파일로 올리는 것이다. 아, 그리고 추가적으로 람다에선 레이어를 쓰는데 아래와 같은 제한사항이 있다. 무한정으로 라이브러리를 실을 수 있는 것은 아니고, 5개의 layers, 전체 layers 용량 250m 까지라는 제한이 존재 합니다. 그래서 프로젝트에서 python 이라는 폴더를 하나 생성하고, 그 안에 아래와 같은 명.. 2021. 6. 10.
[VPC] 서브넷 추가시, IP주소가 부족하다면? | VPC에 보조CIDR 연결 상황 AWS에 배포하던 중 문제가 생겼다. ELB를 사용하지 않을것 같다고 처음에 계획을 했었지만, 계획과 달리 ELB가 필요했고, 가용영역을 늘려야했다. 그래서 서브넷을 추가해야 했다. 여기에서 알게 된것, elb를 사용하려면 무조건 가용영역 2개가 필요하다는 것, 적어도 서브넷2개는 만들어져 있어야한다! 문제 서브넷 추가야 금방이라고 생각했따. 그런데 앵간한 범위를 다 쳐봐도 중첩되는 주소였다...ㅠㅠ 아래의 사이트를 통해 cidr 주소범위까지 확인해보면서 찾아봤지만.. ko.rakko.tools/tools/27/ IPv4 / IPv6 CIDR 계산기 | RAKKOTOOLS🔧 IPv4 / IPv6 CIDR 주소를 기반으로 IP 주소 범위를 계산하십시오.서브넷 마스크 범위의 첫 번째 및 마지막 IP 주.. 2021. 5. 13.
728x90

$(document).ready(function() { var $toc = $("#toc"); $toc.toc({content: ".tt_article_useless_p_margin", headings: "h2,h3,h4"}); });