Close

FlashAttention-2: 더 나은 병렬처리와 작업 분할로 더 빨라진 Attention

  • GPT-4(32k), MPT(65k), Calude(100k) 등 더 긴 컨텍스트를 가진 언어모델이 출현
  • 트랜스포머의 컨텍스트 길이를 확장하는 것은 런타임&메모리 요구사항이 4제곱으로 증가하기 때문에 어려움
  • 작년에 출시한 FlashAttention은 메모리 사용량을 줄이고 어텐션 속도를 증가시켜서 다양한 곳에…

    출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스

Leave a Reply

Your email address will not be published. Required fields are marked *

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.

© 2024 NORICOMPANY