본문 바로가기
반응형

🌿 Data Engineering/MLOps3

[로컬에서] Locust사용법, API 부하 테스트 및 성능 지표 해석하기 데이터엔지니어링 업무를 하다보면, 모델의 추론서버나 모델을 서빙하기 위한 API를 개발해야하는 상황이 생긴다.일단 개발했을때는 나혼자 사용하기 때문에 문제가 없을수도 있다.그러나 이 서버를 실제 서비스에 배포했을 때, 많은 request가 들어오기 때문에 예상하지 못한 문제가 생길지도 모른다.  이렇게 구축된 서버의 성능을 사전에 확인하고자 스트레스 테스팅(부하 테스트)을 할수 있다. 이전에는 nGrinder를 별도의 서버(Ec2)에 설치해서 사용했는데 약간의 러닝 커브가 있었다.그래서 조금더 간단한 locust로 성능테스트 하는 방법을 알아보려고 한다.  https://locust.io/ Locust.ioAn open source load testing tool. Define user behaviour.. 2024. 8. 6.
Triton Inference Server 모델서빙2 - 직접 우리 모델을 서빙해보자! https://pearlluck.tistory.com/821 Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란?최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서pearlluck.tistory.com 지난 글에서 트리톤 인퍼런스 서버 개념에 대해서 알아보았다.이번에는 직접 trition inference server를 실행해보고, 우리 모델을 서빙해보는 테스트를 해보려고 한다. 그래서 최종적으로 트리톤 API를 통해 inference response를 받는것까지 확인할수 있었다.  테스트 대상: OCR 모.. 2024. 8. 3.
Triton Inference Server 모델서빙1 - NVIDA Triton(트리톤)이란? 최근 사내에 GPU를 도입하면서 다양한 ML 모델을 개발하고 있다. 반면 ML 모델 서빙 측면에서는 단순히 FastAPI를 사용하고 있다.알다시피 FastAPI는 파이썬 웹 프레임워크이기 때문에 사실상 모델 서빙 프레임워크는. 그래서 이를 대체 할 수 있는 제대로된(?) 모델서빙 프레임 워크 중 하나인 Trition Infercence Server에 대해서 알아보려고 한다.  ML 모델 서빙이란?train 된 모델을 실 서비스에 사용할수 있도록, 모델 예측 결과를 전달하는 방식이다. 모델을 훈련하는 것에서 끝나는게 아니라 그걸 어떻게 서비스로 제공할 것 인가, 즉 추론(Inference)을 하는 것까지의 과정이며 DE의 영역에서 더 나아가 MLops의 최종과제라고 볼 수 있다.Serving pipelin.. 2024. 7. 19.
728x90