Causal Intervention Framework for Variational Auto Encoder Mechanistic Interpretability

要約

深い学習モデルの機械的解釈可能性は、ニューラルネットワークの機能を理解するための重要な研究方向として浮上しています。
トランスのような識別モデルを解釈する際には大きな進歩が遂げられていますが、変分自動エンコーダー(VAE)などの生成モデルを理解することは依然として困難です。
このペーパーでは、VAEの機械的解釈可能性のための包括的な因果介入フレームワークを紹介します。
ネットワークレイヤーを介してエンコード、処理、および解放されたセマンティック要因を調べるために、VAESの「回路モチーフ」を識別および分析する手法を開発します。
私たちのアプローチでは、入力操作、潜在スペースの摂動、活性化パッチング、因果媒介分析など、さまざまなレベルでターゲットを絞った介入を使用しています。
既知の因果関係と標準的な解き分析ベンチマークを持つ両方の合成データセットにフレームワークを適用します。
結果は、私たちの介入が機能的回路をうまく分離し、計算グラフをセマンティック因子の因果グラフにマッピングすること、および多体的なユニットとモノセマンティックユニットを区別できることを示しています。
さらに、VAE成分の解釈可能性を定量化する因果効果の強度、介入特異性、および回路のモジュール性のメトリックを紹介します。
実験結果は、標準VAE(0.064、3.99)およびベータヴェ(0.051、3.43)と比較して、因子をより高い解角スコア(0.084)と効果強度(平均4.59)を達成するVAEバリアント間の明確な違いを示しています。
私たちのフレームワークは、生成モデルの機構的理解を進め、より透明で制御可能なVAEアーキテクチャのためのツールを提供します。

要約(オリジナル)

Mechanistic interpretability of deep learning models has emerged as a crucial research direction for understanding the functioning of neural networks. While significant progress has been made in interpreting discriminative models like transformers, understanding generative models such as Variational Autoencoders (VAEs) remains challenging. This paper introduces a comprehensive causal intervention framework for mechanistic interpretability of VAEs. We develop techniques to identify and analyze ‘circuit motifs’ in VAEs, examining how semantic factors are encoded, processed, and disentangled through the network layers. Our approach uses targeted interventions at different levels: input manipulations, latent space perturbations, activation patching, and causal mediation analysis. We apply our framework to both synthetic datasets with known causal relationships and standard disentanglement benchmarks. Results show that our interventions can successfully isolate functional circuits, map computational graphs to causal graphs of semantic factors, and distinguish between polysemantic and monosemantic units. Furthermore, we introduce metrics for causal effect strength, intervention specificity, and circuit modularity that quantify the interpretability of VAE components. Experimental results demonstrate clear differences between VAE variants, with FactorVAE achieving higher disentanglement scores (0.084) and effect strengths (mean 4.59) compared to standard VAE (0.064, 3.99) and Beta-VAE (0.051, 3.43). Our framework advances the mechanistic understanding of generative models and provides tools for more transparent and controllable VAE architectures.

arxiv情報

著者 Dip Roy
発行日 2025-05-06 13:40:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク