要約
マルチモーダル大規模言語モデル (MLLM) は、視覚表現を大規模言語モデル (LLM) に統合することにより、大幅に高度な視覚タスクを実現します。
LLM から継承されたテキスト形式により、MLLM は指示に従い、コンテキスト内で学習するなどの能力を身につけることができます。
対照的に、ビジュアル モダリティは、豊富なセマンティック コンテンツ、空間情報、グラウンディング機能を活用することで、下流のタスクのパフォーマンスを向上させます。
これらの固有のモダリティは、さまざまな視覚的タスクにわたって相乗的に機能します。
私たちの調査では、視覚的指導の調整中にテキストが出力生成の大半を占めることが多く、これらのモダリティ間の永続的な不均衡が最初に明らかになりました。
この不均衡は、完全微調整とパラメータ効率微調整 (PEFT) 手法の両方を使用する場合に発生します。
その後、これらのモダリティのバランスを再調整すると、必要なトレーニング可能なパラメーターの数を大幅に削減できることがわかり、視覚的指導の調整をさらに最適化する方向性が生まれました。
この目標を達成するために、Modality Linear Representation-Steering (MoReS) を導入します。
MoReS は、モデル全体で固有のモダリティのバランスを効果的に再調整します。重要なアイデアは、各モデル層にわたる視覚部分空間の線形変換を通じて視覚表現を制御することです。
ソリューションを検証するために、提案された MoReS 手法と統合された一連のモデルである LLaVA Steering を構成しました。
評価結果は、構成された LLaVA ステアリング モデルが必要とするトレーニング可能なパラメーターの数が、LoRA が必要とするものよりも平均で 500 分の 1 でありながら、3 つの視覚的ベンチマークと 8 つの視覚的質問応答タスクにわたって同等のパフォーマンスを達成していることを示しています。
最後に、研究者が最先端のモデルをシームレスに統合するためのコンポーネントベースのアーキテクチャを備えたさまざまな MLLM を迅速にカスタマイズし、その固有のモダリティの不均衡を評価できるようにする社内開発のプラットフォームである LLaVA Steering Factory を紹介します。
要約(オリジナル)
Multimodal Large Language Models (MLLMs) have significantly advanced visual tasks by integrating visual representations into large language models (LLMs). The textual modality, inherited from LLMs, equips MLLMs with abilities like instruction following and in-context learning. In contrast, the visual modality enhances performance in downstream tasks by leveraging rich semantic content, spatial information, and grounding capabilities. These intrinsic modalities work synergistically across various visual tasks. Our research initially reveals a persistent imbalance between these modalities, with text often dominating output generation during visual instruction tuning. This imbalance occurs when using both full fine-tuning and parameter-efficient fine-tuning (PEFT) methods. We then found that re-balancing these modalities can significantly reduce the number of trainable parameters required, inspiring a direction for further optimizing visual instruction tuning. We introduce Modality Linear Representation-Steering (MoReS) to achieve the goal. MoReS effectively re-balances the intrinsic modalities throughout the model, where the key idea is to steer visual representations through linear transformations in the visual subspace across each model layer. To validate our solution, we composed LLaVA Steering, a suite of models integrated with the proposed MoReS method. Evaluation results show that the composed LLaVA Steering models require, on average, 500 times fewer trainable parameters than LoRA needs while still achieving comparable performance across three visual benchmarks and eight visual question-answering tasks. Last, we present the LLaVA Steering Factory, an in-house developed platform that enables researchers to quickly customize various MLLMs with component-based architecture for seamlessly integrating state-of-the-art models, and evaluate their intrinsic modality imbalance.
arxiv情報
著者 | Jinhe Bi,Yujun Wang,Haokun Chen,Xun Xiao,Artur Hecker,Volker Tresp,Yunpu Ma |
発行日 | 2025-01-07 15:36:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google