要約
概念ベースの解釈可能性手法は、基礎モデルの埋め込みを高レベルの概念に分解することで、基礎モデルの内部にレンズを提供します。
これらの概念表現は、構成的である場合、つまり、個々の概念がサンプル全体を説明するために構成されている場合に最も役立ちます。
既存の教師なし概念抽出手法では、構成的ではない概念が検出されることを示します。
構成概念表現を自動的に発見するために、そのような表現の 2 つの顕著な特性を特定し、これらの特性に従う概念を見つけるための構成概念抽出 (CCE) を提案します。
画像データとテキスト データに対する 5 つの異なるデータセットで CCE を評価します。
私たちの評価では、CCE がベースラインよりも多くの構成概念表現を検出し、4 つの下流分類タスクでより高い精度をもたらしていることが示されています。
コードとデータは https://github.com/adaminsky/compositional_concepts で入手できます。
要約(オリジナル)
Concept-based interpretability methods offer a lens into the internals of foundation models by decomposing their embeddings into high-level concepts. These concept representations are most useful when they are compositional, meaning that the individual concepts compose to explain the full sample. We show that existing unsupervised concept extraction methods find concepts which are not compositional. To automatically discover compositional concept representations, we identify two salient properties of such representations, and propose Compositional Concept Extraction (CCE) for finding concepts which obey these properties. We evaluate CCE on five different datasets over image and text data. Our evaluation shows that CCE finds more compositional concept representations than baselines and yields better accuracy on four downstream classification tasks. Code and data are available at https://github.com/adaminsky/compositional_concepts .
arxiv情報
著者 | Adam Stein,Aaditya Naik,Yinjun Wu,Mayur Naik,Eric Wong |
発行日 | 2024-06-26 17:59:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google