Multi-Faceted Multimodal Monosemanticity

要約

人間は、ビジョン、言語、スピーチなどの複数のモダリティを通じて世界を経験し、それらの共通性と区別を探求することを自然にします。
この作業では、深いマルチモーダルモデルから抽出された解釈可能な単調な特徴を分析することにより、この質問に対処するためにデータ駆動型のアプローチを取ります。
具体的には、大規模な画像テキストペアで訓練された顕著な視覚言語表現モデルであるクリップを調査します。
シングルモーダルの解釈可能性の以前の研究に基づいて、クリップから学んだ機能を解き放ち、分析するために設計された一連のマルチモーダル解釈可能性ツールと測定を開発します。
具体的には、各クリップ機能を特定のモダリティに起因するモダリティドミナンススコア(MDS)を導入します。
次に、クリップ機能をより解釈可能な空間にマップし、ビジョン機能(シングルモーダル)、言語機能(シングルモーダル)、視覚言語機能(クロスモーダル)の3つの異なるクラスに分類できるようにします。
興味深いことに、このデータ駆動型の分類は、さまざまなモダリティの人間の直感的な理解と密接に一致しています。
さらに、このモダリティの分解は、性別検出のバイアスの削減、クロスモーダル敵対的な例の生成、テキストから画像の生成におけるモーダル固有の特徴制御を可能にするなど、複数の下流タスクに利益をもたらす可能性があることを示します。
これらの結果は、タスクに依存しない解釈可能性ツールを装備した場合、大規模なマルチモーダルモデルが、異なるデータモダリティ間の関係について貴重な洞察を提供できることを示しています。

要約(オリジナル)

Humans experience the world through multiple modalities, such as, vision, language, and speech, making it natural to explore the commonality and distinctions among them. In this work, we take a data-driven approach to address this question by analyzing interpretable, monosemantic features extracted from deep multimodal models. Specifically, we investigate CLIP, a prominent visual-language representation model trained on massive image-text pairs. Building on prior research in single-modal interpretability, we develop a set of multi-modal interpretability tools and measures designed to disentangle and analyze features learned from CLIP. Specifically, we introduce the Modality Dominance Score (MDS) to attribute each CLIP feature to a specific modality. We then map CLIP features into a more interpretable space, enabling us to categorize them into three distinct classes: vision features (single-modal), language features (single-modal), and visual-language features (cross-modal). Interestingly, this data-driven categorization closely aligns with human intuitive understandings of different modalities. We further show that this modality decomposition can benefit multiple downstream tasks, including reducing bias in gender detection, generating cross-modal adversarial examples, and enabling modal-specific feature control in text-to-image generation. These results indicate that large-scale multimodal models, when equipped with task-agnostic interpretability tools, can offer valuable insights into the relationships between different data modalities.

arxiv情報

著者 Hanqi Yan,Xiangxiang Cui,Lu Yin,Paul Pu Liang,Yulan He,Yifei Wang
発行日 2025-05-23 16:04:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク