Large Multi-modal Models Can Interpret Features in Large Multi-modal Models

要約

大規模マルチモーダル モデル (LMM) の最近の進歩は、学術界と産業界の両方に大きな進歩をもたらしました。
そこで生じる疑問の 1 つは、私たち人間が内部の神経表現をどのように理解できるかということです。
このペーパーでは、LMM 内のセマンティクスを特定して解釈するための多用途のフレームワークを提示することで、この問題に対処するための最初の一歩を踏み出します。
具体的には、1) まずスパース オートエンコーダー (SAE) を適用して、表現を人間が理解できる特徴に解きほぐします。
2) 次に、LMM 自体によって SAE で学習されたオープンセマンティック機能を解釈するための自動解釈フレームワークを提示します。
このフレームワークを使用して、LLaVA-OV-72B モデルを使用して LLaVA-NeXT-8B モデルを分析し、これらの機能がモデルの動作を効果的に制御できることを実証します。
私たちの結果は、なぜ LMM が EQ テストなどの特定のタスクにおいて優れているのかについてのより深い理解に貢献し、LMM の間違いの性質と、それを修正するための潜在的な戦略を明らかにします。
これらの発見は、LMM の内部メカニズムに対する新たな洞察を提供し、人間の脳の認知プロセスとの類似性を示唆しています。

要約(オリジナル)

Recent advances in Large Multimodal Models (LMMs) lead to significant breakthroughs in both academia and industry. One question that arises is how we, as humans, can understand their internal neural representations. This paper takes an initial step towards addressing this question by presenting a versatile framework to identify and interpret the semantics within LMMs. Specifically, 1) we first apply a Sparse Autoencoder(SAE) to disentangle the representations into human understandable features. 2) We then present an automatic interpretation framework to interpreted the open-semantic features learned in SAE by the LMMs themselves. We employ this framework to analyze the LLaVA-NeXT-8B model using the LLaVA-OV-72B model, demonstrating that these features can effectively steer the model’s behavior. Our results contribute to a deeper understanding of why LMMs excel in specific tasks, including EQ tests, and illuminate the nature of their mistakes along with potential strategies for their rectification. These findings offer new insights into the internal mechanisms of LMMs and suggest parallels with the cognitive processes of the human brain.

arxiv情報

著者 Kaichen Zhang,Yifei Shen,Bo Li,Ziwei Liu
発行日 2024-11-22 14:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク