IAA: Inner-Adaptor Architecture Empowers Frozen Large Language Model with Multimodal Capabilities

要約

マルチモーダル大規模言語モデル (MLLM) の分野では、一般的な方法では、深い視覚的理解を促進するために、トレーニング中に言語モデルのフリーズを解除することが一般的です。
ただし、視覚言語データを使用してこのようなモデルを微調整すると、多くの場合、自然言語処理 (NLP) 機能の低下につながります。
このパフォーマンスの低下を回避するための簡単な解決策は、マルチモーダル コンピテンシーの開発中に言語モデルをフリーズすることです。
残念ながら、これまでの研究では満足のいく結果が得られていませんでした。
言語モデルを凍結する戦略に基づいて、徹底的な構造調査を実施し、インナーアダプター アーキテクチャ (IAA) を導入します。
具体的には、このアーキテクチャには、本質的にテキスト指向のトランスフォーマー層との直接対話を容易にするために、大規模な言語モデル内のさまざまな深さで複数のマルチモーダル アダプターが組み込まれており、それによって凍結された言語モデルがマルチモーダル機能を獲得できるようになります。
大規模な整列されたデータを必要とする言語モデルを凍結するこれまでのアプローチとは異なり、私たちが提案するアーキテクチャは小規模なデータセットで優れたパフォーマンスを達成できます。
私たちは、MLLM の一般的なマルチモーダル機能と視覚的接地能力を向上させるために、広範な実験を行っています。
私たちのアプローチは、NLP タスクのパフォーマンスを犠牲にすることなく、さまざまな視覚言語ベンチマークにわたって以前の最先端の手法を大幅に上回っています。
コードとモデルは https://github.com/360CVGroup/Inner-Adaptor-Architecture で入手できます。

要約(オリジナル)

In the field of multimodal large language models (MLLMs), common methods typically involve unfreezing the language model during training to foster profound visual understanding. However, the fine-tuning of such models with vision-language data often leads to a diminution of their natural language processing (NLP) capabilities. To avoid this performance degradation, a straightforward solution is to freeze the language model while developing multimodal competencies. Unfortunately, previous works have not attained satisfactory outcomes. Building on the strategy of freezing the language model, we conduct thorough structural exploration and introduce the Inner-Adaptor Architecture (IAA). Specifically, the architecture incorporates multiple multimodal adaptors at varying depths within the large language model to facilitate direct interaction with the inherently text-oriented transformer layers, thereby enabling the frozen language model to acquire multimodal capabilities. Unlike previous approaches of freezing language models that require large-scale aligned data, our proposed architecture is able to achieve superior performance on small-scale datasets. We conduct extensive experiments to improve the general multimodal capabilities and visual grounding abilities of the MLLM. Our approach remarkably outperforms previous state-of-the-art methods across various vision-language benchmarks without sacrificing performance on NLP tasks. Code and models are available at https://github.com/360CVGroup/Inner-Adaptor-Architecture.

arxiv情報

著者 Bin Wang,Chunyu Xie,Dawei Leng,Yuhui Yin
発行日 2024-08-23 08:10:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク