PIP-MM: Pre-Integrating Prompt Information into Visual Encoding via Existing MLLM Structures

要約

マルチモーダル大規模言語モデル (MLLM) は、視覚情報を統合することによって視覚言語タスクを解決する大規模言語モデル (LLM) の機能を活性化しました。
既存の MLLM で一般的なアプローチには、画像エンコーダーを使用して視覚的特徴を抽出し、アダプターを介してこれらの特徴を視覚的トークンに変換し、それらをプロンプトとともに LLM に統合することが含まれます。
ただし、画像エンコードのプロセスはプロンプトに依存しないため、抽出された視覚的特徴は画像の大まかな説明のみを提供し、プロンプトの要件に焦点を合わせることができません。
一方で、画像特徴にはプロンプトで指定されたオブジェクトに関する情報が不足しやすく、結果として満足のいく応答が得られません。
一方で、視覚的特徴には無関係な情報が多く含まれるため、記憶への負担が増大するだけでなく、生成効率も悪くなる。
前述の問題に対処するために、我々は、MLLM の既存のモジュールを使用して視覚的なエンコード プロセスに情報を再\textbf{P}再\textbf{I}統合\textbf{P}するフレームワークである\textbf{PIP-MM}を提案します。
具体的には、MLLM で凍結された LLM を利用して、プロンプトの要件を要約した入力プロンプトをベクトル化します。次に、プロンプト ベクトルをトレーニング済みの多層パーセプトロン (MLP) に入力して、視覚的な入力要件に合わせます。
画像エンコーダのクラス埋め込みを置き換えます。
私たちのモデルはトレーニング可能な MLP を追加するだけなので、あらゆる MLLM に適用できます。
PIP-MM の有効性を検証するために、複数のベンチマークで実験を実施しました。
自動評価メトリクスと手動評価は、PIP-MM の強力なパフォーマンスを示しています。特に注目に値するのは、ビジュアル トークンの半分が減少した場合でも、モデルが優れた生成結果を維持していることです。

要約(オリジナル)

The Multimodal Large Language Models (MLLMs) have activated the capabilitiesof Large Language Models (LLMs) in solving visual-language tasks by integratingvisual information. The prevailing approach in existing MLLMs involvesemploying an image encoder to extract visual features, converting thesefeatures into visual tokens via an adapter, and then integrating them with theprompt into the LLM. However, because the process of image encoding isprompt-agnostic, the extracted visual features only provide a coarsedescription of the image, impossible to focus on the requirements of theprompt. On one hand, it is easy for image features to lack information aboutthe prompt-specified objects, resulting in unsatisfactory responses. On theother hand, the visual features contain a large amount of irrelevantinformation, which not only increases the burden on memory but also worsens thegeneration effectiveness. To address the aforementioned issues, we propose\textbf{PIP-MM}, a framework that \textbf{P}re-\textbf{I}ntegrates\textbf{P}rompt information into the visual encoding process using existingmodules of MLLMs. Specifically, We utilize the frozen LLM in the MLLM tovectorize the input prompt, which summarizes the requirements of the prompt.Then, we input the prompt vector into our trained Multi-Layer Perceptron (MLP)to align with the visual input requirements, and subsequently replace the classembedding in the image encoder. Since our model only requires adding atrainable MLP, it can be applied to any MLLM. To validate the effectiveness ofPIP-MM, we conducted experiments on multiple benchmarks. Automated evaluationmetrics and manual assessments demonstrate the strong performance of PIP-MM.Particularly noteworthy is that our model maintains excellent generationresults even when half of the visual tokens are reduced.

arxiv情報

著者 Tianxiang Wu,Minxin Nie,Ziqiang Cao
発行日 2024-10-30 15:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク