HomeNewsITllama.cpp 에 전체 CUDA GPU 가속 추가 llama.cpp 에 전체 CUDA GPU 가속 추가 2023년 6월 14일노리컴퍼니ITNo Comments 219 views 모든 남은 ggml 텐서들에 GPU 가속을 추가하는 PR RTX 3090에서 프롬프트 처리는 2배, 토큰 생성은 1.3~1.8배까지 가속 4090+i9에서 7B q4 모델의 경우 초당 109토큰 생성 … 출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스 관련