要約
自己回帰マルチモーダル大規模言語モデル (MLLM) の最近の進歩により、視覚言語タスクの有望な進歩が実証されました。
大規模な言語モデル内での言語情報の処理を調査するさまざまな研究が存在しますが、MLLM の内部動作メカニズムや、言語情報と視覚情報がこれらのモデル内でどのように相互作用するかについては、現在ほとんどわかっていません。
この研究では、視覚的な質問応答に焦点を当てて、MLLM におけるさまざまなモダリティ (言語と視覚) の間の情報の流れを調べることで、このギャップを埋めることを目的としています。
具体的には、入力として画像と質問のペアが与えられると、モデル内のどこで視覚情報と言語情報がどのように組み合わされて最終的な予測が生成されるかを調査します。
LLaVA シリーズの一連のモデルを使用して実験を行ったところ、2 つのモダリティの統合プロセスには 2 つの異なる段階があることがわかりました。
下位層では、モデルは最初に画像全体のより一般的な視覚的特徴を (言語的な) 質問トークンの表現に転送します。
中間層では、質問に関連する特定のオブジェクトに関する視覚情報が質問のそれぞれのトークン位置に再度転送されます。
最後に、上位層では、結果として得られるマルチモーダル表現が、最終予測のために入力シーケンスの最後の位置に伝播されます。
全体として、私たちの調査結果は、MLLM における画像および言語処理の空間的および機能的側面に関する新たで包括的な視点を提供し、それによってマルチモーダルな情報ローカリゼーションと編集に関する将来の研究を促進します。
要約(オリジナル)
The recent advancements in auto-regressive multimodal large language models (MLLMs) have demonstrated promising progress for vision-language tasks. While there exists a variety of studies investigating the processing of linguistic information within large language models, little is currently known about the inner working mechanism of MLLMs and how linguistic and visual information interact within these models. In this study, we aim to fill this gap by examining the information flow between different modalities — language and vision — in MLLMs, focusing on visual question answering. Specifically, given an image-question pair as input, we investigate where in the model and how the visual and linguistic information are combined to generate the final prediction. Conducting experiments with a series of models from the LLaVA series, we find that there are two distinct stages in the process of integration of the two modalities. In the lower layers, the model first transfers the more general visual features of the whole image into the representations of (linguistic) question tokens. In the middle layers, it once again transfers visual information about specific objects relevant to the question to the respective token positions of the question. Finally, in the higher layers, the resulting multimodal representation is propagated to the last position of the input sequence for the final prediction. Overall, our findings provide a new and comprehensive perspective on the spatial and functional aspects of image and language processing in the MLLMs, thereby facilitating future research into multimodal information localization and editing.
arxiv情報
著者 | Zhi Zhang,Srishti Yadav,Fengze Han,Ekaterina Shutova |
発行日 | 2024-11-27 18:59:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google