본문 바로가기
반응형

DevOps/Cloud34

LocalStack으로 AWS local Kinesis 환경 만들기 목차 로그 수집기 AWS kinesis AWS kinesis를 사용해서 많은 로그들을 수집하고 있다. 키네시스는 실시간 데이터 스트리밍 서비스로, 실시간으로 흘러들어오는 데이터들을 받아서 처리해주는 서비스이다. 이때 데이터들은 어느정도라 섣불리 예상하기 어려운데, 다행히도 키네시스는 유동적으로 shard수를 조절해서 scale out까지 가능하다. 물론 도메인에 따라 다르겠지만 우리 앱 기준으로 예를 들어 상품을 클릭하고, 상품을 장바구니에 담고, 구매하고 등등 한 사용자이더라도 다양한 이벤트가 발생한다. 이에 따라 무수한 로그들을 키네시스가 실시간으로 받아서 저장하는 것이다. Receiver Server 결국 이러한 로그들을 키네시스가 받아서 처리해주기 위해, 로그들을 키네시스로 보내주는 서버가 필요하.. 2023. 12. 10.
📖[Kinesis] 직접 알아보는 Kinesis Data Stream 직접 알아보는 sagmaker에 이어서....! 이번엔 직접 알아보는 Kinesis Data Stream...! https://pearlluck.tistory.com/773 [Sagemaker] 직접 알아보는 AWS Sagemaker, 우리팀은 잘 사용하고 있는가? (feat. DS와 DE의 갈등 원인과 해 사실 요즘 세이즈메이커로 distributed training 를 해야하는 "챌린지" 가 주어졌다. 그래서 밤낮없이 troubleshooting을 하고 있는데.. (인생은 원래 혼자인법이지..🥲) 그전에 지금까지 우리팀에서 개발 pearlluck.tistory.com Kinesis(키네시스)란? 실시간으로 데이터 스트립을 수집,처리,분석 해주는 서비스이다. (AWS에서 제공해주는 카프카랑 비슷한 서비.. 2023. 7. 1.
[Sagemaker] 직접 알아보는 AWS Sagemaker, 우리팀은 잘 사용하고 있는가? 사실 요즘 세이즈메이커로 distributed training 를 해야하는 "챌린지" 가 주어졌다. 그래서 밤낮없이 troubleshooting을 하고 있는데.. (인생은 원래 혼자인법이지..🥲) 그전에 지금까지 우리팀에서 개발한 모델들과 알고리즘들을 어떻게 세이즈메이커로 학습해왔는지 한번 정리해보려고 한다. Sagemaker란? fully managed machine learning service. 개발한 머신러닝 모델을을 쉽고 빠르게 build하고, train해서, production까지 deploy해주는 머신러닝 서비스다. 그리고 여기 full managed 라는 "완전관리형"에는 "알아서"의 의미가 있는데 이게 장점이다 단점이다..ㅎㅎ 뿐만 아니라 같은 애플리케이션 환경에서 모델 build/tra.. 2023. 2. 26.
Amazon Corretto로 java설치하기 (OpenJDK 다운로드) hadoop은 자바기반이라서 JVM위에서 동작한다. 그래서 사전에 java설치가 필요한데, openjdk를 오라클에서 받을 경우 막혀서 wget이 안됐었다.. 결국 windows에서 받은걸 복사해서 막 번거롭게 했는데.. 좋은방법을 알게 되서 기록해본다. Amazon Corretto OpenJDK(Open Java Development Kit)의 프로덕션 준비가 완료된 무료 멀티플랫폼 배포판. Corretto를 사용하면 Amazon Linux 2, Windows 및 macOS와 같은 운영 체제에서 Java 응용 프로그램을 개발하고 실행할 수 있습니다. https://docs.aws.amazon.com/corretto/latest/corretto-11-ug/what-is-corretto-11.html Wh.. 2021. 9. 6.
🚩[Redshift] Redshift 란? 다른DB들과 의 차이점은? Redshift 란? AWS에서 완전관리형으로 제공해주는 클라우드 데이터웨어하우스. 클러스터(노드집합)를 생성하고, 클러스터가 사용할 준비가 되면(프로비저닝 완료) 데이터 적재 및 분석가능.PostgreSQL을 기반으로 해서 표준SQL을 이용한 데이터처리를 지원하고, BI도구로 분석할 수 있다. >>데이터웨어하우스 관련글 데이터웨어하우스란? 수집한 여러가지 데이터를 추출 및 변환 과정(ETL)을 거쳐 적재하는 관계형 데이터베이스 2021.03.16 - 데이터웨어하우스(Data Warehouse)란? 2021.08.15 - [데엔스터디2] 데이터엔지니어링을 위한 데이터웨어하우스(RedShift) Redshift 구성요소 클러스터 (Cluster) : 리더노드와 하나이상의 컴퓨팅 노드로 구성되어 있다. 리더.. 2021. 8. 21.
🎯[Lambda] 람다의 장점과 단점 | 콜드스타트와 동시성제한 사실 관련내용은 이곳에서도 정리했었다. 하지만 누군가에게 설명할 수 있을 정도의 수준이 되지 않아서 내가 가장 많이 사용하는만큼 다시한번 더 알아보았다. 2021.06.05 - 음악추천챗봇0. 왜 Serverless아키텍쳐인가? Lambda의 장단점-동시성 음악추천챗봇0. 왜 Serverless아키텍쳐인가? Lambda의 장단점-동시성 지금까지 한 작업은 이렇다. 1. Front - 카카오챗봇 기획작업 완료 2. Back - 스포티파이 API 파악 완료 이번엔 인프라를 구성해볼까 한다. 프론트와 백단을 이어줄 틀을 잡아준다라고 할까. 그전에 개 pearlluck.tistory.com Lambda란? 서버리스 컴퓨팅 서비스 프로비저닝 하거나 관리하지 않아도 코드를 실행할 수 있도록 해주는 컴퓨팅서비스이다... 2021. 8. 9.
[EMR] EMR이란? Elastic MapReduce 마스터노드 접속해보기 EMR이란? Elastic MapReduce, AWS에 제공해주는 완전관리형 빅데이터 플랫폼이라고 볼 수 있다. 하둡(MapReduce), Spark, Hive, Zeppelin 등 오픈소스 프레임워크를 가지고 클러스터를 쉽게 구축해주는 서비스이다. 여담으로 EC2도 Elastic Computing Cloud로 앞에 'Elastic'이 들어간다. 비슷한 느낌이다. EMR을 사용하면 뭐가 좋은가? 하둡이나 스파크 같이 널리사용되는 오픈소스 프레임워크를 규모에 구애받지 않고 원하는 용량으로 쉽게 생성가능 하둡클러스터의 설정관리 또는 컴퓨팅 파워와 용량에 대해 걱정하지 않고 데이터를 처리분석하는데 집중할 수 있다. -> 유연성과 확장성이 좋다 >>AWS공식문서 EMR사용시 이점 오토스케일링으로 클러스터를 확장.. 2021. 8. 8.
[Athena] parquet형식 S3 데이터 가져오기 현재상황 s3에 parquet형태의 데이터가 저장되어 있다. 이제 이 데이터를 아테나로 가져와서 sql쿼리를 날려볼 것이다. 2021.06.26 - 🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기 1. 데이터베이스 생성 앗, 데이터베이스를 생성하기 전에 S3쿼리 쿼리 결과의 출력 위치를 지정해야한다. Amazon S3에서 쿼리 결과 버킷의 위치를 ​​지정하는 경우는 위에 "set up a query result location in Amazon S3" 간다. 그렇지 않으면 아래와 같은 오류가 생긴다.. >>구글링 athena로 처리한 결과를 저장할 폴더를 s3에 따로 생성해두고, 그 위치를 지정한다. 2. 테이블생성 이미 s3에는 dt라는 날짜기준으로 파티셔닝을 해둔 상태. 그래서.. 2021. 6. 25.
⚡[Athena] S3에 저장된 데이터활용하기 | 데이터파티셔닝과 압축 프로젝트를 진행하던 중 athea로 s3에 적재된 데이터들을(데이터레이크) 쿼리해야하는 일이 생겼다. 사실 boto3로 athena를 처리하지만, 실제로 콘솔에서도 익숙해지기 위해 athena를 파볼예정! 로그를 적재하는 목적으로 사용할 수도 있다 -> 다음엔 웹로그를 적재해봐야지! DB에서 로그를 S3에서 동일하게 가져올때 제약이 있다. 로그를 가져올때 조건을 거는부분, 많은 양의 압축된 로그파일을 로드하고, 압축을 푸는데 시간이 많이 소요. 이러한 문제를 아테나를 통해 해결할 수 있다. AWS Athena란? s3에서 표준 SQL을 사용하여 데이터를 쉽게 바로 분석할 수 있는 대화형쿼리서비스 아테나에 데이터가 저장되어 있는 S3를 설정해두고, 테이블 생성후, 쿼리를 실행하면 -> 데이터를 가져올 수 .. 2021. 6. 17.
[DynamoDB] DynamoDB란? 파티션키와 정렬키 DynamoDB란? 완전관리형 NoSQL기반 데이터베이스 서비스. Key-Value형태를 제공하며 스키마가 따로 정해져 있지 않음. 장점 JSON형태로 데이터를 저장하고, 수평확장(Scale-out)이 쉽고 유연하다. 질의 속도가 빨라 대량의 비정형 데이터처리에 용이 이 밖에도 완전관리형 데이터베이스 시스템으로 스토리지가 꽉차면 알아서 늘어난다거나, 일정기간마다 백업을 한다거나, 트래픽이 급증하면 성능을 조절하는 등 개발자는 데이터 조작 및 스키마 정의에만 신경쓰면 된다. 단점 조인이 불가능하므로 연산이 다양하지 못하다 2020.01.19 - 정형데이터 vs 비정형데이터 (RDBMS VS NOSQL) DynamoDB 구성 테이블 : 데이터레코드의 집합. 데이터를 테이블에 저장. 항목(Item) :테이블에.. 2021. 6. 15.
728x90