要約
大規模な視覚言語モデルの長いコンテキスト機能を確立することは、ビデオ理解、高解像度の画像理解、マルチモーダルエージェント、推論に不可欠です。
長い視覚視覚理解タスクのためのシンプルで効果的な大規模なマルチモーダルモデルであるLong-vitaを紹介します。
4Kフレームまたは1Mトークンを超える画像、ビデオ、テキストのモダリティを同時に処理および分析しながら、ショートテキストマルチモーダルタスクで高度なパフォーマンスを提供します。
大規模な言語モデルから始まり、ビジョン言語の調整、一般的な知識学習、および長期微調整の2つの連続段階を通じて進行する効果的なマルチモーダルトレーニングスキーマを提案します。
さらに、モデルの推論中に画像とテキストの長vitaから無限に長い入力をスケーリングするために、ヘッドをスケーリングするために、コンテキストと平行分散の推論とロジッツマスクされた言語モデリングを実装します。
トレーニングデータに関して、Long-vitaは、パブリックデータセットのみの17ドルのサンプルの組み合わせに基づいて構築され、さまざまなマルチモーダルベンチマークの最先端のパフォーマンスを実証します。
Long-vitaは完全に再現性があり、トレーニングとテストのためにNPUプラットフォームとGPUプラットフォームの両方をサポートしています。
Long-vitaが競争の激しいベースラインとして機能し、オープンソースコミュニティに長いコンテキストマルチモーダルの理解を進めるための貴重な洞察を提供できることを願っています。
要約(オリジナル)
Establishing the long-context capability of large vision-language models is crucial for video understanding, high-resolution image understanding, multi-modal agents and reasoning. We introduce Long-VITA, a simple yet effective large multi-modal model for long-context visual-language understanding tasks. It is adept at concurrently processing and analyzing modalities of image, video, and text over 4K frames or 1M tokens while delivering advanced performances on short-context multi-modal tasks. We propose an effective multi-modal training schema that starts with large language models and proceeds through vision-language alignment, general knowledge learning, and two sequential stages of long-sequence fine-tuning. We further implement context-parallelism distributed inference and logits-masked language modeling head to scale Long-VITA to infinitely long inputs of images and texts during model inference. Regarding training data, Long-VITA is built on a mix of $17$M samples from public datasets only and demonstrates the state-of-the-art performance on various multi-modal benchmarks, compared against recent cutting-edge models with internal data. Long-VITA is fully reproducible and supports both NPU and GPU platforms for training and testing. We hope Long-VITA can serve as a competitive baseline and offer valuable insights for the open-source community in advancing long-context multi-modal understanding.
arxiv情報
著者 | Yunhang Shen,Chaoyou Fu,Shaoqi Dong,Xiong Wang,Peixian Chen,Mengdan Zhang,Haoyu Cao,Ke Li,Xiawu Zheng,Yan Zhang,Yiyi Zhou,Rongrong Ji,Xing Sun |
発行日 | 2025-02-07 18:59:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google