Close

DeepSpeed Ulysses: 긴 시퀀스 트랜스포머 모델 훈련을 위한 시스템 최적화

  • 기존 시스템보다 4배 더 긴 시퀀스 길이를 제공, 백만개 이상의 토큰이 포함된 시퀀스로 훈련 가능
  • 통신이 10배 이상 감소하여 처리량이 최대 2.5배 향상. 처리량이 175 TFlops/GPU 이상으로 유지
  • 완전히 general 하고 구현에 agnostic한 Attention (FlashAttention 2 같은 구현과도 동작)…

    출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스

Leave a Reply

Your email address will not be published. Required fields are marked *

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.

© 2024 NORICOMPANY