要約
この論文では、画像とビデオを理解するためのより高度なマルチモーダル基盤モデルである VideoLLaMA3 を提案します。
VideoLLaMA3 の核となる設計哲学はビジョン中心です。
「ビジョン中心」の意味は 2 つあります。ビジョン中心のトレーニング パラダイムとビジョン中心のフレームワーク設計です。
私たちの視覚中心のトレーニング パラダイムの重要な洞察は、高品質の画像テキスト データが画像とビデオの両方を理解するために重要であるということです。
大規模なビデオとテキストのデータセットを準備する代わりに、大規模で高品質の画像とテキストのデータセットを構築することに重点を置いています。
VideoLLaMA3 には 4 つのトレーニング ステージがあります。1) ビジョン中心のアライメント ステージ。ビジョン エンコーダとプロジェクターをウォームアップします。
2) ビジョン言語の事前トレーニング段階。テキストのみのデータだけでなく、複数のタイプ (シーン画像、ドキュメント、チャートなど) をカバーする大規模な画像テキスト データを使用して、ビジョン エンコーダ、プロジェクター、LLM を共同で調整します。
3) マルチタスク微調整ステージ。下流タスク用の画像テキスト SFT データと、ビデオ理解の基盤を確立するビデオテキスト データを組み込みます。
4) ビデオ中心の微調整。ビデオ理解におけるモデルの能力をさらに向上させます。
フレームワーク設計に関しては、画像のきめ細かい詳細をより適切にキャプチャするために、事前トレーニングされたビジョン エンコーダーが、固定数のトークンではなく、さまざまなサイズの画像を、対応する番号を持つビジョン トークンにエンコードするように適合されています。
ビデオ入力の場合、ビデオの表現がより正確かつコンパクトになるように、類似性に応じてビジョン トークンの数を減らします。
VideoLLaMA3 は、視覚中心の設計の恩恵を受け、画像とビデオの両方の理解ベンチマークで魅力的なパフォーマンスを実現します。
要約(オリジナル)
In this paper, we propose VideoLLaMA3, a more advanced multimodal foundation model for image and video understanding. The core design philosophy of VideoLLaMA3 is vision-centric. The meaning of ‘vision-centric’ is two-fold: the vision-centric training paradigm and vision-centric framework design. The key insight of our vision-centric training paradigm is that high-quality image-text data is crucial for both image and video understanding. Instead of preparing massive video-text datasets, we focus on constructing large-scale and high-quality image-text datasets. VideoLLaMA3 has four training stages: 1) vision-centric alignment stage, which warms up the vision encoder and projector; 2) vision-language pretraining stage, which jointly tunes the vision encoder, projector, and LLM with large-scale image-text data covering multiple types (including scene images, documents, charts) as well as text-only data. 3) multi-task fine-tuning stage, which incorporates image-text SFT data for downstream tasks and video-text data to establish a foundation for video understanding. 4) video-centric fine-tuning, which further improves the model’s capability in video understanding. As for the framework design, to better capture fine-grained details in images, the pretrained vision encoder is adapted to encode images of varying sizes into vision tokens with corresponding numbers, rather than a fixed number of tokens. For video inputs, we reduce the number of vision tokens according to their similarity so that the representation of videos will be more precise and compact. Benefit from vision-centric designs, VideoLLaMA3 achieves compelling performances in both image and video understanding benchmarks.
arxiv情報
著者 | Boqiang Zhang,Kehan Li,Zesen Cheng,Zhiqiang Hu,Yuqian Yuan,Guanzheng Chen,Sicong Leng,Yuming Jiang,Hang Zhang,Xin Li,Peng Jin,Wenqi Zhang,Fan Wang,Lidong Bing,Deli Zhao |
発行日 | 2025-01-22 18:59:46+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google