要約
視覚的特徴を単語埋め込み空間に投影することは、マルチモーダル大規模言語モデル (MLLM) で採用される重要な融合戦略となっています。
ただし、その内部メカニズムはまだ解明されていません。
多言語研究に触発されて、私たちはマルチモーダルな大規模言語モデルでドメイン固有のニューロンを特定します。
具体的には、ドメイン固有のニューロンの分布と、MLLM がさまざまなドメインからの特徴を処理する方法のメカニズムを調査します。
さらに、投影された画像の特徴を処理する際の MLLM の言語モデル モジュールの 3 段階のメカニズムを提案し、ロジット レンズを使用してこの仮説を検証します。
広範な実験により、現在の MLLM は Visual Question Answering (VQA) 機能を示しますが、ドメイン固有の情報を完全には活用していない可能性があることが示されています。
ドメイン固有のニューロンを適切に操作すると、精度は最大で 10% 変化し、将来のクロスドメインで包括的な MLLM の開発に光が当てられます。
ソース コードは https://github.com/Z1zs/MMNeuron で入手できます。
要約(オリジナル)
Projecting visual features into word embedding space has become a significant fusion strategy adopted by Multimodal Large Language Models (MLLMs). However, its internal mechanisms have yet to be explored. Inspired by multilingual research, we identify domain-specific neurons in multimodal large language models. Specifically, we investigate the distribution of domain-specific neurons and the mechanism of how MLLMs process features from diverse domains. Furthermore, we propose a three-stage mechanism for language model modules in MLLMs when handling projected image features, and verify this hypothesis using logit lens. Extensive experiments indicate that while current MLLMs exhibit Visual Question Answering (VQA) capability, they may not fully utilize domain-specific information. Manipulating domain-specific neurons properly will result in a 10% change of accuracy at most, shedding light on the development of cross-domain, all-encompassing MLLMs in the future. The source code is available at https://github.com/Z1zs/MMNeuron.
arxiv情報
著者 | Jiahao Huo,Yibo Yan,Boren Hu,Yutao Yue,Xuming Hu |
発行日 | 2024-10-01 17:04:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google