728x90 반응형 🌿 Data Engineering63 AWS Bedrock 챗봇만들기2 - Llama3 모델은 GPT4 보다 똑똑할까? 지난 글에서는 AWS Bedrock 서비스를 처음으로 써봤다.그래서 Bedrock에 쓸 모델을 비교한 끝에, Llama 3.3 70B 모델을 사용하기로 했다. 그전에 과연 내가 선택한 이 모델은 어떨지 궁금했다.GPT4랑 비슷하다곤 하지만 실제도로 그럴까? 얼마나 잘 이해할까? 이 글에서는 Llama 3.3 70B 모델을 AWS Bedrock의 PlayGround에서 테스트해본 과정을 담고 있다. 실제로 별다른 설치나 명령어 없이 이렇게 콘솔에서 바로 테스트를 해볼수 있다는게 정말 편하고 좋았다. 특히 같은 질문을 GPT4에도 하면서 Llama 3.3 70B 모델과 GPT4의 결과를 비교해볼수 있었다. 내가 선택한 모델, 어떤지 한번 볼까?AWS Bedrock에서는 PlayGround에서 내가 선택한.. 2025. 4. 6. AWS Bedrock 챗봇 만들기1 - 어떤 모델을 선택해야할까? AWS Bedrock 관련 사이드 프로젝트를 해보겠단 의지로 이 책을 읽어 봤었다.그렇게 이론만 알아두다가 드디어 이제서야....!!AWS Bedrock을 가지고 이것저것 만들어보려고 한다.사이드 프로젝트 가보자고! 2025.02.01-[책] Amazon Bedrock으로 시작하는 실전 생성형 AI개발 리뷰 [책] Amazon Bedrock으로 시작하는 실전 생성형 AI개발 리뷰이번 글에서는 책에 대한 리뷰와 후기 위주의 서평글을 남겨보려고 한다. 간단하게 내용과 구성을 살펴보는 글로, Amazon Bedrock을 직접 사용해보면서 알게 된 내용은 다음글을 참고하면 좋을pearlluck.tistory.com 이 글에서는 나처럼 AWS Bedrock을 아예 처음 시작하는 작업과정을 담고 있다.나는 콘.. 2025. 4. 5. Dify 설치 하고 기능 살펴보기, LLM 앱 개발을 위한 오픈 소스 플랫폼 LLM 앱을 뭔가 만들어보고 싶다. 그래서 AWS bedrock도 알아보고 있었는데,Dify는 그 다음으로 눈에 들어온 LLM개발 오픈소스 플랫폼이다. Dify가 마음에 들었던 이유는 일단 빠르게 해보기 쉬워보였다. LLM 서비스라고 한다면 LangChain이나 RAG, VectorDB설정, 프롬프트 엔지니어링 까지 이것저것 하나하나 디테일을 손보면 끝도 없는데, 여기에 많은 리소스가 들어간다고 생각해서 시작하기 어려웠다. 그런데 Dify를 알고 나서 마음이 훨씬 가벼워졌다. 그래서 나처럼 LLM 서비스를 간단하게 만들어보고 싶다면, 한번쯤 사용해보면 좋은 툴인것 같다.그렇다면 이번글에서는 Dify가 무엇인지 간단하게 개념정도 알아보고, 다음글에서 Dify를 가지고 직접 간단한 LLM서비스를 만들어본.. 2025. 3. 16. Triton Inference Server 모델서빙4 -LLM 모델도 서빙할수 있대! 애증의 트리톤..!성능 테스트까지 해보고 결국 무산되나 싶었지만.. LLM 모델 서빙도 할수 있대서 한번 테스트해봤다. 파이썬 백엔드를 사용해서 onnx, pytorch 모델을 서빙하기 위해 트리톤을 적용해봤다면,이번에는 트리톤 인퍼런스 서버의 vLLM용 백엔드를 사용해서 어떻게 llm모델을 서빙할수 있을지 알아보려고 한다. 참고로 인프라는 사내 GPU환경에서 진행했고, 모델은 llm 샘플모델을 사용했다. LLM을 실제 서비스에 활용하고 싶어요! llm을 사용한 모델 연구를 한창하고 있다.그러나 실제 서비스에 적용하기까지는 아직 시기상조다.그 이유는 성능적인 측면 때문이다. (성능,성능, 그놈의 성능이 제일 문제다) 일반적인 개발환경에서 조차 응답을 받을때 여전히 수십초가 걸리며 꽤 많은 리소스가.. 2025. 1. 5. Triton Inference Server 모델서빙3 - 서비스 적용..은 다음에..해보자;; 첫번째 글에서는 ML 모델 서빙프레임워크인 Trtiton inference server에 대한 개념을 알아보았고,2024.07.19-Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란?두번째 글에서는 직접 Trtiton inference server를 실행해보고 inference response 받는 것까지 테스트해보았다. 2024.08.03-Triton Inference Server 모델서빙2 - 직접 우리 모델을 서빙해보자!이번글에서는 실제로 우리 서비스에 Trtiton inference server를 적용하기 위해 겪은 시행착오의 내용을 기록해보려고 한다. 앞서 잠시 다시 처음으로 되돌아가서, 우리가 ML 모델 서빙 프레임워크를 적용하려고 했던 목적은 Fas.. 2024. 10. 25. pgVector 기반 VectorDB 구축 및 효율적인 리소스(메모리,스토리지) 사용 이전에 임베딩 결과를 저장하는 데이터베이스로 vectorDB에 대해서 간단하게 알아보았다.2024.08.04-Embedding을 저장하는 VectorDB 그리고 벡터 유사도 검색 Indexing Embedding을 저장하는 VectorDB 그리고 벡터 유사도 검색 Indexing정형데이터 뿐만 아니라 텍스트 이미지 비정형 데이터, 더 나아가 LLM까지 앞으로 VectorDB를 빼놓을수가 없게 되었다.우리도 VectorDB를 사용하고 있으며, 벡터간의 유사도 검색으로 다양한 서비스pearlluck.tistory.com 이번 글에서는 로컬환경에서 vectorDB를 설치해 개발환경을 구축하고 테스트하려고 한다.특히 vectorDB 관련 오프소스 중에서 pgVector를 사용하려고 한다. postgres에서 .. 2024. 10. 13. [로컬에서] Locust사용법, API 부하 테스트 및 성능 지표 해석하기 데이터엔지니어링 업무를 하다보면, 모델의 추론서버나 모델을 서빙하기 위한 API를 개발해야하는 상황이 생긴다.일단 개발했을때는 나혼자 사용하기 때문에 문제가 없을수도 있다.그러나 이 서버를 실제 서비스에 배포했을 때, 많은 request가 들어오기 때문에 예상하지 못한 문제가 생길지도 모른다. 이렇게 구축된 서버의 성능을 사전에 확인하고자 스트레스 테스팅(부하 테스트)을 할수 있다. 이전에는 nGrinder를 별도의 서버(Ec2)에 설치해서 사용했는데 약간의 러닝 커브가 있었다.그래서 조금더 간단한 locust로 성능테스트 하는 방법을 알아보려고 한다. https://locust.io/ Locust.ioAn open source load testing tool. Define user behaviour.. 2024. 8. 6. Embedding을 저장하는 VectorDB 그리고 벡터 유사도 검색 Indexing 정형데이터 뿐만 아니라 텍스트 이미지 비정형 데이터, 더 나아가 LLM까지 앞으로 VectorDB를 빼놓을수가 없게 되었다.우리도 VectorDB를 사용하고 있으며, 벡터간의 유사도 검색으로 다양한 서비스에 적용하고 있다.이번글에서는 기본적인 vector와 embedding 그리고 vectorDB의 이론적인 개념에 대해서 살펴보려고 한다. Vector란?고등학교 수학에서 때 배웠던 그 벡터 맞다.간략하게 기하학에서 벡터는 '크기'와 '방향'을 함께 가지는 물리량을 벡터라고 표현했다. 화살표 방향이 벡터의 방향이고, 화살표 길이가 크기가 되었다. 그렇다면 DataScience에서는 여러 의미의 데이터들을 특정한 순서대로 모아둔 데이터 레코드를 벡터라고 부르고,이러한 벡터가 여러개 있는 데이터의 집.. 2024. 8. 4. Triton Inference Server 모델서빙2 - 직접 우리 모델을 서빙해보자! https://pearlluck.tistory.com/821 Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란?최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서pearlluck.tistory.com 지난 글에서 트리톤 인퍼런스 서버 개념에 대해서 알아보았다.이번에는 직접 trition inference server를 실행해보고, 우리 모델을 서빙해보는 테스트를 해보려고 한다. 그래서 최종적으로 트리톤 API를 통해 inference response를 받는것까지 확인할수 있었다. 테스트 대상: OCR 모.. 2024. 8. 3. Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란? 최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서빙 프레임워크는. 그래서 이를 대체 할 수 있는 제대로된(?) 모델서빙 프레임 워크 중 하나인 Trition Infercence Server에 대해서 알아보려고 한다. ML 모델 서빙이란?train 된 모델을 실 서비스에 사용할수 있도록, 모델 예측 결과를 전달하는 방식이다. 모델을 훈련하는 것에서 끝나는게 아니라 그걸 어떻게 서비스로 제공할 것 인가, 즉 추론(Inference)을 하는 것까지의 과정이며 DE의 영역에서 더 나아가 MLops의 최종과제라고 볼 수 있다.Serving pipelin.. 2024. 7. 19. 이전 1 2 3 4 ··· 7 다음 728x90 반응형