Close

HomeNewsITvLLM: PagedAttention을 이용한 쉽고 빠르고 저렴한 LLM 서빙

vLLM: PagedAttention을 이용한 쉽고 빠르고 저렴한 LLM 서빙

2023년 6월 23일노리컴퍼니ITNo Comments 498 views

빠른 LLM 추론 및 서빙을 위한 오픈소스 라이브러리
PagedAttention 알고리듬으로 어텐션 키/값을 효율적으로 관리
- 모델 아키텍처 변경없이 HuggingFace Transformers 대비 24배 높은 처리량
- 비연속 메모리 공간에 연속된 키/값을 저장 가능
LMSYS Vicuna 와 …
출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스

관련

Leave a Reply Cancel reply

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.