LION : Empowering Multimodal Large Language Model with Dual-Level Visual Knowledge

要約

マルチモーダル大規模言語モデル (MLLM) により、LLM にはマルチモーダル信号を認識して理解する能力が与えられました。
しかし、既存の MLLM のほとんどは、主に、粗く位置合わせされた画像とテキストのペアで事前トレーニングされたビジョン エンコーダを採用しているため、視覚的な知識の抽出と推論が不十分になります。
この問題に対処するために、私たちは、視覚的な知識を 2 つのレベルで注入することによって MLLM を強化する、デュアルレベルの vIsual knOwledge eNhanced Multimodal Large Language Model (LION) を考案しました。
1) きめの細かい空間認識視覚知識の漸進的な組み込み。
私たちは、領域レベルのビジョン言語 (VL) タスクと連携するビジョン アグリゲーターを設計し、きめ細かい空間認識視覚知識を MLLM に組み込みます。
組み込み中のイメージレベルと領域レベルの VL タスク間の競合を軽減するために、アダプターの混合による専用の段階ごとの命令チューニング戦略を考案しました。
この漸進的な組み込みスキームは、これら 2 種類の VL タスク間の相互促進に貢献します。
2) 高レベルの意味論的な視覚的証拠のソフトなプロンプト。
多様な画像タグを活用することで、高レベルのセマンティック視覚証拠による MLLM を促進します。
不完全な予測タグによって引き起こされる潜在的な影響を軽減するために、調整されたテキスト命令に学習可能なトークンを埋め込むことによるソフトプロンプト方法を提案します。
いくつかのマルチモーダル ベンチマークに関する包括的な実験により、モデルの優位性が実証されました (たとえば、InstructBLIP よりも TextCaps で VSR で 5% の精度と 3% CIDEr が向上し、Kosmos-2 よりも RefCOCOg で 5% の精度が向上しました)。

要約(オリジナル)

Multimodal Large Language Models (MLLMs) have endowed LLMs with the ability to perceive and understand multi-modal signals. However, most of the existing MLLMs mainly adopt vision encoders pretrained on coarsely aligned image-text pairs, leading to insufficient extraction and reasoning of visual knowledge. To address this issue, we devise a dual-Level vIsual knOwledge eNhanced Multimodal Large Language Model (LION), which empowers the MLLM by injecting visual knowledge in two levels. 1) Progressive incorporation of fine-grained spatial-aware visual knowledge. We design a vision aggregator cooperated with region-level vision-language (VL) tasks to incorporate fine-grained spatial-aware visual knowledge into the MLLM. To alleviate the conflict between image-level and region-level VL tasks during incorporation, we devise a dedicated stage-wise instruction-tuning strategy with mixture-of-adapters. This progressive incorporation scheme contributes to the mutual promotion between these two kinds of VL tasks. 2) Soft prompting of high-level semantic visual evidence. We facilitate the MLLM with high-level semantic visual evidence by leveraging diverse image tags. To mitigate the potential influence caused by imperfect predicted tags, we propose a soft prompting method by embedding a learnable token into the tailored text instruction. Comprehensive experiments on several multi-modal benchmarks demonstrate the superiority of our model (e.g., improvement of 5% accuracy on VSR and 3% CIDEr on TextCaps over InstructBLIP, 5% accuracy on RefCOCOg over Kosmos-2).

arxiv情報

著者 Gongwei Chen,Leyang Shen,Rui Shao,Xiang Deng,Liqiang Nie
発行日 2023-11-20 15:56:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク