Close

Otter: 컨텍스트 내에서 명령어 튜닝이 가능한 멀티모달 모델

  • LLM의 제로샷 성능이 좋으려면 고품질 인스트럭션 셋이 필수적이고, VLM(시각-언어 모델)도 마찬가지
  • 하지만 현재 vision-language 인스트럭션 셋은 수량/다양성/창의성 면에서 매우 제한적
  • MIMIC-IT(MultI-Modal In-Context Instruction Tuning)을 제시
  • 이미지 & 비디오 에서 …

    출처 : GeekNews – 개발/기술/스타트업 뉴스 서비스

Leave a Reply

Your email address will not be published. Required fields are marked *

이 사이트는 스팸을 줄이는 아키스밋을 사용합니다. 댓글이 어떻게 처리되는지 알아보십시오.

© 2024 NORICOMPANY