반응형 🌿 Data Engineering/MLOps4 Dify 설치 하고 기능 살펴보기, LLM 앱 개발을 위한 오픈 소스 플랫폼 LLM 앱을 뭔가 만들어보고 싶다. 그래서 AWS bedrock도 알아보고 있었는데,Dify는 그 다음으로 눈에 들어온 LLM개발 오픈소스 플랫폼이다. Dify가 마음에 들었던 이유는 일단 빠르게 해보기 쉬워보였다. LLM 서비스라고 한다면 LangChain이나 RAG, VectorDB설정, 프롬프트 엔지니어링 까지 이것저것 하나하나 디테일을 손보면 끝도 없는데, 여기에 많은 리소스가 들어간다고 생각해서 시작하기 어려웠다. 그런데 Dify를 알고 나서 마음이 훨씬 가벼워졌다. 그래서 나처럼 LLM 서비스를 간단하게 만들어보고 싶다면, 한번쯤 사용해보면 좋은 툴인것 같다.그렇다면 이번글에서는 Dify가 무엇인지 간단하게 개념정도 알아보고, 다음글에서 Dify를 가지고 직접 간단한 LLM서비스를 만들어본.. 2025. 3. 16. [로컬에서] Locust사용법, API 부하 테스트 및 성능 지표 해석하기 데이터엔지니어링 업무를 하다보면, 모델의 추론서버나 모델을 서빙하기 위한 API를 개발해야하는 상황이 생긴다.일단 개발했을때는 나혼자 사용하기 때문에 문제가 없을수도 있다.그러나 이 서버를 실제 서비스에 배포했을 때, 많은 request가 들어오기 때문에 예상하지 못한 문제가 생길지도 모른다. 이렇게 구축된 서버의 성능을 사전에 확인하고자 스트레스 테스팅(부하 테스트)을 할수 있다. 이전에는 nGrinder를 별도의 서버(Ec2)에 설치해서 사용했는데 약간의 러닝 커브가 있었다.그래서 조금더 간단한 locust로 성능테스트 하는 방법을 알아보려고 한다. https://locust.io/ Locust.ioAn open source load testing tool. Define user behaviour.. 2024. 8. 6. Triton Inference Server 모델서빙2 - 직접 우리 모델을 서빙해보자! https://pearlluck.tistory.com/821 Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란?최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서pearlluck.tistory.com 지난 글에서 트리톤 인퍼런스 서버 개념에 대해서 알아보았다.이번에는 직접 trition inference server를 실행해보고, 우리 모델을 서빙해보는 테스트를 해보려고 한다. 그래서 최종적으로 트리톤 API를 통해 inference response를 받는것까지 확인할수 있었다. 테스트 대상: OCR 모.. 2024. 8. 3. Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란? 최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서빙 프레임워크는. 그래서 이를 대체 할 수 있는 제대로된(?) 모델서빙 프레임 워크 중 하나인 Trition Infercence Server에 대해서 알아보려고 한다. ML 모델 서빙이란?train 된 모델을 실 서비스에 사용할수 있도록, 모델 예측 결과를 전달하는 방식이다. 모델을 훈련하는 것에서 끝나는게 아니라 그걸 어떻게 서비스로 제공할 것 인가, 즉 추론(Inference)을 하는 것까지의 과정이며 DE의 영역에서 더 나아가 MLops의 최종과제라고 볼 수 있다.Serving pipelin.. 2024. 7. 19. 이전 1 다음 728x90