Triton Inference Server 따라하기 (1) - 소개
Triton Inference Server란? Triton Inference Server(이하 trtis)는 NVIDIA의 모델 추론용 오픈 소스 서버 프레임워크이다. 공식 홈페이지에서 소개 중인 이점은 아래와 같다. 1. 다수의 프레임워크 지원 tensorflow, PyTorch, TensorRT, onnx 등 범용적인 모델 프레임워크들부터 Python 백엔드를 통한 자유로운 커스텀까지. 2. 고성능 추론 C++ 기반이라 python 기반 inference보다 더 빠름 단일 GPU에서 여러 모델을 효율적으로 굴릴 수 있도록 설계되어 있음 다이나믹 배칭을 통해 지연 시간을 최소화 및 추론 시간을 최적화할 수 있음 ensemble 기능을 지원, 모델 파이프라인을 효율적으로 설계 가능 3. DevOps와 M..
MLOps/Triton Inference Server
2023. 12. 10. 22:29
공지사항
최근에 올라온 글
최근에 달린 댓글
- Total
- Today
- Yesterday
TAG
- 회고
- 유난한도전
- ddd
- 백엔드
- uvicorn
- 규칙없음
- Ai
- 개발자회고
- AWS
- Gunicorn
- 조직문화
- CloudFront
- 모델 추론
- 정적웹사이트
- 사이드프로젝트
- memory leak
- Python
- 토스
- 넷플릭스
- 웹사이트배포
- s3
- Triton Inference Server
- mlops
- 모델 추론 최적화
- S3+CloudFront
- 메모리 누수
- 개발자동아리
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
글 보관함