Finding and Editing Multi-Modal Neurons in Pre-Trained Transformer

要約

マルチモーダル大規模言語モデル (LLM) は、近年、視覚的な意味を理解するための強力な機能を実現しました。
しかし、LLM が視覚情報をどのように理解し、さまざまな特徴のモダリティを解釈するかについてはほとんど知られていません。
この論文では、トランスフォーマベースのマルチモーダル LLM でマルチモーダル ニューロンを識別するための新しい方法を提案します。
一連の実験を通じて、適切に設計された 4 つの定量的評価指標によって、マルチモーダル ニューロンの 3 つの重要な特性を強調します。
さらに、特定のトークンを別の指定トークンに変更するための、識別されたマルチモーダル ニューロンに基づく知識編集手法を紹介します。
私たちの発見が、マルチモーダル LLM のメカニズムを理解するためのさらなる説明的研究のきっかけとなることを願っています。

要約(オリジナル)

Multi-modal large language models (LLM) have achieved powerful capabilities for visual semantic understanding in recent years. However, little is known about how LLMs comprehend visual information and interpret different modalities of features. In this paper, we propose a new method for identifying multi-modal neurons in transformer-based multi-modal LLMs. Through a series of experiments, We highlight three critical properties of multi-modal neurons by four well-designed quantitative evaluation metrics. Furthermore, we introduce a knowledge editing method based on the identified multi-modal neurons, for modifying a specific token to another designative token. We hope our findings can inspire further explanatory researches on understanding mechanisms of multi-modal LLMs.

arxiv情報

著者 Haowen Pan,Yixin Cao,Xiaozhi Wang,Xun Yang
発行日 2023-11-13 17:03:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク