HomeNewsITFlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진… FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention 2023년 7월 20일노리컴퍼니ITNo Comments 240 views GPT-4(32k), MPT(65k), Calude(100k) 등 더 긴 컨텍스트를 가진 언어모델이 출현 트랜스포머의 컨텍스트 길이를 확장하는 것은 런타임&메모리 요구사항이 4제곱으로 증가하기 때문에 어려움 작년에 출시한 FlashAttention은 메모리 사용량을 줄이고 어텐션 속도를 증가시켜서 다양한 곳에… 출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스 관련