要約
概念アクティベーションベクトル(CAVS)は、神経ネットワークの潜在空間内の方向として人間に理解できる概念をモデル化するために広く使用されています。
それらは、概念サンプルのアクティベーションから非概念サンプルの方向への方向を識別することによって訓練されています。
ただし、この方法では、多くの場合、男性の画像に頻繁に共存するセレバデータセット内の「ひげ」や「ネクタイ」などの相関概念について、同様の非正所的方向を生成します。
このエンタングルメントは、概念の解釈を単独で複雑にし、アクティベーションステアリングなどのCAVアプリケーションで望ましくない効果につながる可能性があります。
この問題に対処するために、指示的正確性を維持しながら直交概念の方向の識別を促進し、非正義の損失を採用する事後概念の解体方法を紹介します。
Celebaの実世界および制御された相関概念と、VGG16およびResNet18アーキテクチャを備えた合成FunnyBirdsデータセットでアプローチを評価します。
さらに、アクティベーションステアリングタスクにおける直交化された概念表現の優位性を実証し、(1)生成モデルを介して孤立した概念を入力画像に挿入し、(2)ベースラインCavsと比較した相関概念への影響を減らすための効果的なショートカット抑制のための概念を除去できるようにします。
要約(オリジナル)
Concept Activation Vectors (CAVs) are widely used to model human-understandable concepts as directions within the latent space of neural networks. They are trained by identifying directions from the activations of concept samples to those of non-concept samples. However, this method often produces similar, non-orthogonal directions for correlated concepts, such as ‘beard’ and ‘necktie’ within the CelebA dataset, which frequently co-occur in images of men. This entanglement complicates the interpretation of concepts in isolation and can lead to undesired effects in CAV applications, such as activation steering. To address this issue, we introduce a post-hoc concept disentanglement method that employs a non-orthogonality loss, facilitating the identification of orthogonal concept directions while preserving directional correctness. We evaluate our approach with real-world and controlled correlated concepts in CelebA and a synthetic FunnyBirds dataset with VGG16 and ResNet18 architectures. We further demonstrate the superiority of orthogonalized concept representations in activation steering tasks, allowing (1) the insertion of isolated concepts into input images through generative models and (2) the removal of concepts for effective shortcut suppression with reduced impact on correlated concepts in comparison to baseline CAVs.
arxiv情報
著者 | Eren Erogullari,Sebastian Lapuschkin,Wojciech Samek,Frederik Pahde |
発行日 | 2025-03-07 15:45:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google