Close

HomeNewsITFlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진…

FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention

2023년 7월 20일노리컴퍼니ITNo Comments 348 views

GPT-4(32k), MPT(65k), Calude(100k) 등 더 긴 컨텍스트를 가진 언어모델이 출현
트랜스포머의 컨텍스트 길이를 확장하는 것은 런타임&메모리 요구사항이 4제곱으로 증가하기 때문에 어려움
작년에 출시한 FlashAttention은 메모리 사용량을 줄이고 어텐션 속도를 증가시켜서 다양한 곳에…
출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스

관련

Leave a Reply Cancel reply

이 사이트는 Akismet을 사용하여 스팸을 줄입니다. 댓글 데이터가 어떻게 처리되는지 알아보세요.