要約
視覚と言語モダリティの間のギャップを埋めるために、マルチモーダル大規模言語モデル (MLLM) は通常、視覚入力を大規模言語モデル (LLM) の理解可能なトークンに変換するアダプターを学習します。
ただし、ほとんどのアダプターは、プロンプトで言及されている特定の対象オブジェクトに関係なく、一貫したビジュアル トークンを生成します。
これらのアダプターは、画像のあらゆる細部に均等な注意を分散し、シーン全体に焦点を当てるため、特に複雑なシーンを処理する場合、LLM の認知負荷が増加する可能性があります。
この問題を軽減するために、プロンプト対応アダプターを提案します。
これらのアダプターは、プロンプトの特定の焦点に基づいてビジュアル入力を動的に埋め込む機能を備えて設計されています。
具体的には、プロンプト対応アダプターは、グローバルとローカルの両方のテキスト機能を利用して、粗い粒度レベルと細かい粒度レベルの両方で、プロンプトから最も関連性の高い視覚的な手がかりをキャプチャします。
このアプローチにより、LLM の視覚コンテンツを理解して解釈する能力が大幅に強化されます。
カウンティングや位置推論など、さまざまな視覚的な質問応答タスクの実験では、プロンプト対応アダプターの有効性が実証されています。
要約(オリジナル)
To bridge the gap between vision and language modalities, Multimodal Large Language Models (MLLMs) usually learn an adapter that converts visual inputs to understandable tokens for Large Language Models (LLMs). However, most adapters generate consistent visual tokens, regardless of the specific objects of interest mentioned in the prompt. Since these adapters distribute equal attention to every detail in the image and focus on the entire scene, they may increase the cognitive load for LLMs, particularly when processing complex scenes. To alleviate this problem, we propose prompt-aware adapters. These adapters are designed with the capability to dynamically embed visual inputs based on the specific focus of the prompt. Specifically, prompt-aware adapters utilize both global and local textual features to capture the most relevant visual clues from the prompt at both coarse and fine granularity levels. This approach significantly enhances the ability of LLMs to understand and interpret visual content. Experiments on various visual question answering tasks, such as counting and position reasoning, demonstrate the effectiveness of prompt-aware adapters.
arxiv情報
著者 | Yue Zhang,Hehe Fan,Yi Yang |
発行日 | 2024-05-24 16:24:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google