COMPACT: COMPositional Atomic-to-Complex Visual Capability Tuning

要約

マルチモーダル大手言語モデル(MLLM)は、単純なビジョン言語タスクに優れていますが、オブジェクトの認識、カウント、およびそれらの空間的関係の理解など、複数の機能を必要とする複雑なタスクに直面した場合に苦労します。
これは、MLLMの重要なトレーニングステップである視覚指導の調整(VIT)が、従来、データのボリュームのスケーリングに焦点を合わせていたが、トレーニング例の構成的複雑さには焦点を当てていたという事実の一部である可能性があります。
コンパクト(組成の原子間視覚視覚機能チューニング)を提案し、トレーニングの例の構成的複雑さを明示的に制御するトレーニングデータセットを生成します。
コンパクトからのデータにより、MLLMは原子機能の組み合わせをトレーニングして、複雑な機能をより効率的に学習することができます。
すべてのベンチマークにわたって、Compactは、データ予算の10%未満を使用しながら、LLAVA-665K VITに匹敵するパフォーマンスを実現し、特に複雑なマルチ容量タスクを伴うものでさらに優れています。
たとえば、Compactは、4つ以上の原子機能を必要とする特に複雑な質問で、本格的なVITと比較して、MMSTARの83.3%の改善とMM-VETの94.0%の改善を達成します。
Compactは、複雑な視覚言語タスクを改善するために、スケーラブルでデータ効率の良い視覚的な構成チューニングレシピを提供します。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) excel at simple vision-language tasks but struggle when faced with complex tasks that require multiple capabilities, such as simultaneously recognizing objects, counting them, and understanding their spatial relationships. This might be partially the result of the fact that Visual Instruction Tuning (VIT), a critical training step for MLLMs, has traditionally focused on scaling data volume, but not the compositional complexity of training examples. We propose COMPACT (COMPositional Atomic-to-complex visual Capability Tuning), which generates a training dataset explicitly controlling for the compositional complexity of the training examples. The data from COMPACT allows MLLMs to train on combinations of atomic capabilities to learn complex capabilities more efficiently. Across all benchmarks, COMPACT achieves comparable performance to the LLaVA-665k VIT while using less than 10% of its data budget, and even outperforms it on several, especially those involving complex multi-capability tasks. For example, COMPACT achieves substantial 83.3% improvement on MMStar and 94.0% improvement on MM-Vet compared to the full-scale VIT on particularly complex questions that require four or more atomic capabilities. COMPACT offers a scalable, data-efficient, visual compositional tuning recipe to improve on complex visual-language tasks.

arxiv情報

著者 Xindi Wu,Hee Seung Hwang,Polina Kirichenko,Olga Russakovsky
発行日 2025-04-30 17:57:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク