HomeNewsITExLlamaV2: 일반 GPU에서 로컬 LLMs를 실행하기 위한 빠른… ExLlamaV2: 일반 GPU에서 로컬 LLMs를 실행하기 위한 빠른 추론 라이브러리 2023년 9월 14일노리컴퍼니ITNo Comments 149 views 3090/4090 같은 GPU에서 로컬 LLM을 실행하도록 설계된 추론 라이브러리 초기 릴리즈이며 코드는 아직 테스트 단계에 있으며, 일부 주요 기능은 아직 구현되지 않음 V1에 비해 ExLlamaV2는 더 빠르고 더 나은 커널, 더 깔끔하고 다양한 코드베이스, 그리고 새로운 양자 형식을 지원 GeekNews – 개발/기술/스타트업 뉴스 서비스 관련