'모델 추론 최적화' 태그의 글 목록

Triton Inference Server 따라하기 (1) - 소개

Triton Inference Server란? Triton Inference Server(이하 trtis)는 NVIDIA의 모델 추론용 오픈 소스 서버 프레임워크이다. 공식 홈페이지에서 소개 중인 이점은 아래와 같다. 1. 다수의 프레임워크 지원 tensorflow, PyTorch, TensorRT, onnx 등 범용적인 모델 프레임워크들부터 Python 백엔드를 통한 자유로운 커스텀까지. 2. 고성능 추론 C++ 기반이라 python 기반 inference보다 더 빠름 단일 GPU에서 여러 모델을 효율적으로 굴릴 수 있도록 설계되어 있음 다이나믹 배칭을 통해 지연 시간을 최소화 및 추론 시간을 최적화할 수 있음 ensemble 기능을 지원, 모델 파이프라인을 효율적으로 설계 가능 3. DevOps와 M..

MLOps/Triton Inference Server 2023. 12. 10. 22:29

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

글 보관함

권기준의 개발일지

티스토리툴바