要約
マルチモーダル大規模言語モデル (MLLM) の進歩により、統合されたテキストと画像を理解するアプリケーションの開発が大幅に加速されました。
最近の研究では、画像キャプション データセットを活用して MLLM をトレーニングし、画像からテキストへのタスクで最先端のパフォーマンスを実現しています。
しかし、マルチモーダルな理解と生成において重要な役割を果たすグローバル画像情報に対して、MLLM のどの層が最も多くの労力を費やすかを調査した研究はほとんどありません。
この研究では、モデルの中間層は、最上位層よりも、その表現ベクトルが視覚言語含意タスクでより優れたパフォーマンスを発揮する、よりグローバルな意味情報をエンコードできることがわかりました。
さらに、オブジェクト認識タスクを通じてローカルの意味表現に関するモデルを調査します。
最上位層がローカル情報に過度に重点を置き、グローバル情報をエンコードする能力の低下につながる可能性があることがわかりました。
コードとデータは https://github.com/kobashikanna01/probing_MLLM_rep 経由で公開されています。
要約(オリジナル)
The advancement of Multimodal Large Language Models (MLLMs) has greatly accelerated the development of applications in understanding integrated texts and images. Recent works leverage image-caption datasets to train MLLMs, achieving state-of-the-art performance on image-to-text tasks. However, there are few studies exploring which layers of MLLMs make the most effort to the global image information, which plays vital roles in multimodal comprehension and generation. In this study, we find that the intermediate layers of models can encode more global semantic information, whose representation vectors perform better on visual-language entailment tasks, rather than the topmost layers. We further probe models regarding local semantic representations through object recognition tasks. We find that the topmost layers may excessively focus on local information, leading to a diminished ability to encode global information. Our code and data are released via https://github.com/kobayashikanna01/probing_MLLM_rep.
arxiv情報
著者 | Mingxu Tao,Quzhe Huang,Kun Xu,Liwei Chen,Yansong Feng,Dongyan Zhao |
発行日 | 2024-11-21 07:03:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google