Understanding Information Storage and Transfer in Multi-modal Large Language Models

要約

Transformer ベースのモデルにおける情報の保存と転送のメカニズムを理解することは、モデルの理解を促進するために重要です。
最近の研究では、大規模言語モデル (LLM) のこれらのメカニズムが研究され、情報がモデルのパラメーターにどのように格納されるか、および特定のプロンプトに応答してこれらのパラメーターとの間で情報がどのように流れるかについての洞察が明らかになりました。
ただし、これらの研究はまだマルチモーダル大規模言語モデル (MLLM) には拡張されていません。
機能の拡張と現実世界での使用を考慮して、これらのモデルの 1 つの側面、つまり、MLLM が事実に基づいた視覚的な質問応答タスクで情報をどのように処理するかを研究することから始めます。
私たちは、視覚的な質問には、モデルが生成した回答が正しいために満たさなければならない一連の視覚的またはテキストの制約があるとみなす、制約ベースの定式化を使用します (例: この写真の監督が監督したどの映画がゴールデングローブ賞を受賞しましたか?)。
この設定の下で、私たちは、i) 因果情報追跡を純粋言語からマルチモーダル設定に拡張する方法、および ii) VQA-Constraints (制約の注釈が付けられた 9.7K の視覚的な質問のテストベッド) に貢献します。
私たちはこれらのツールを使用して、2 つのオープンソース MLLM、LLaVa とマルチモーダル Phi-2 を研究します。
私たちの主な調査結果は、これらの MLLM は、中間層の MLP がより重要である LLM と比較して、情報の保存においてはるかに初期の層の MLP およびセルフ アテンション ブロックに依存していることを示しています。
また、ビジョン エンコーダーによって出力される視覚トークンの一貫した小さなサブセットが、画像からこれらの因果ブロックに情報を転送する役割を担っていることも示します。
私たちは、これらの原因ブロックをターゲットにすることでエラーを修正し、新しいロングテール情報を MLLM に挿入できるモデル編集アルゴリズムである MultEdit を導入することで、これらのメカニズムを検証します。

要約(オリジナル)

Understanding the mechanisms of information storage and transfer in Transformer-based models is important for driving model understanding progress. Recent work has studied these mechanisms for Large Language Models (LLMs), revealing insights on how information is stored in a model’s parameters and how information flows to and from these parameters in response to specific prompts. However, these studies have not yet been extended to Multi-modal Large Language Models (MLLMs). Given their expanding capabilities and real-world use, we start by studying one aspect of these models — how MLLMs process information in a factual visual question answering task. We use a constraint-based formulation which views a visual question as having a set of visual or textual constraints that the model’s generated answer must satisfy to be correct (e.g. What movie directed by the director in this photo has won a Golden Globe?). Under this setting, we contribute i) a method that extends causal information tracing from pure language to the multi-modal setting, and ii) VQA-Constraints, a test-bed of 9.7K visual questions annotated with constraints. We use these tools to study two open-source MLLMs, LLaVa and multi-modal Phi-2. Our key findings show that these MLLMs rely on MLP and self-attention blocks in much earlier layers for information storage, compared to LLMs whose mid-layer MLPs are more important. We also show that a consistent small subset of visual tokens output by the vision encoder are responsible for transferring information from the image to these causal blocks. We validate these mechanisms by introducing MultEdit, a model-editing algorithm that can correct errors and insert new long-tailed information into MLLMs by targeting these causal blocks.

arxiv情報

著者 Samyadeep Basu,Martin Grayson,Cecily Morrison,Besmira Nushi,Soheil Feizi,Daniela Massiceti
発行日 2024-06-06 16:35:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク