要約
この論文では、画像とビデオの理解のためのより高度なマルチモーダルファンデーションモデルであるVidedollama3を提案します。
Videdollama3のコアデザイン哲学は視覚中心です。
「視覚中心」の意味は2つあります。ビジョン中心のトレーニングパラダイムと視覚中心のフレームワークの設計です。
私たちのビジョン中心のトレーニングパラダイムの重要な洞察は、画像の理解とビデオの両方の理解において、高品質の画像テキストデータが重要であることです。
大規模なビデオテキストデータセットを準備する代わりに、大規模で高品質の画像テキストデータセットの構築に焦点を当てています。
Videdollama3には4つのトレーニング段階があります。1)Visionエンコーダー適応により、Vision Encoderは可変解像度の画像を入力として受け入れることができます。
2)ビジョンエンコーダー、プロジェクター、およびLLMを共同で調整し、複数のタイプ(シーン画像、ドキュメント、チャートを含む)とテキストのみのデータをカバーする大規模な画像テキストデータと共同で調整します。
3)下流タスクとビデオテキストデータの画像テキストSFTデータを組み込んで、ビデオ理解の基盤を確立するマルチタスク微調整。
4)ビデオ中心の微調整。これにより、ビデオの理解におけるモデルの機能がさらに向上します。
フレームワークの設計に関しては、画像の細かい詳細をより適切にキャプチャするために、前処理されたビジョンエンコーダは、固定数のトークンではなく、さまざまなサイズの画像を対応する数値でビジョントークンにエンコードするように適合しています。
ビデオ入力の場合、ビデオの表現がより正確でコンパクトになるように、類似性に応じてビジョントークンの数を減らします。
Videdollama3は、ビジョン中心のデザインの恩恵を受けて、画像とビデオの両方のベンチマークで説得力のあるパフォーマンスを実現します。
要約(オリジナル)
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation model for image and video understanding. The core design philosophy of VideoLLaMA3 is vision-centric. The meaning of ‘vision-centric’ is two-fold: the vision-centric training paradigm and vision-centric framework design. The key insight of our vision-centric training paradigm is that high-quality image-text data is crucial for both image and video understanding. Instead of preparing massive video-text datasets, we focus on constructing large-scale and high-quality image-text datasets. VideoLLaMA3 has four training stages: 1) Vision Encoder Adaptation, which enables vision encoder to accept images of variable resolutions as input; 2) Vision-Language Alignment, which jointly tunes the vision encoder, projector, and LLM with large-scale image-text data covering multiple types (including scene images, documents, charts) as well as text-only data. 3) Multi-task Fine-tuning, which incorporates image-text SFT data for downstream tasks and video-text data to establish a foundation for video understanding. 4) Video-centric Fine-tuning, which further improves the model’s capability in video understanding. As for the framework design, to better capture fine-grained details in images, the pretrained vision encoder is adapted to encode images of varying sizes into vision tokens with corresponding numbers, rather than a fixed number of tokens. For video inputs, we reduce the number of vision tokens according to their similarity so that the representation of videos will be more precise and compact. Benefit from vision-centric designs, VideoLLaMA3 achieves compelling performances in both image and video understanding benchmarks.
arxiv情報
著者 | Boqiang Zhang,Kehan Li,Zesen Cheng,Zhiqiang Hu,Yuqian Yuan,Guanzheng Chen,Sicong Leng,Yuming Jiang,Hang Zhang,Xin Li,Peng Jin,Wenqi Zhang,Fan Wang,Lidong Bing,Deli Zhao |
発行日 | 2025-01-28 11:05:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google