ELUDE: Generating interpretable explanations via a decomposition into labelled and unlabelled features

要約

ディープラーニングモデルは、過去10年間、機械学習のさまざまな分野で目覚ましい成功を収めてきました。
ただし、これらのモデルのサイズと複雑さにより、モデルを理解するのは困難です。
それらをより解釈しやすくするために、最近のいくつかの研究は、人間が解釈できるセマンティック属性を介してディープニューラルネットワークの一部を説明することに焦点を当てています。
ただし、セマンティック属性のみを使用して複雑なモデルを完全に説明することは不可能な場合があります。
この作業では、解釈できない機能の小さなセットでこれらの属性を拡張することを提案します。
具体的には、モデルの予測を2つの部分に分解する新しい説明フレームワークELUDE(ラベル付きおよびラベルなし分解による説明)を開発します。1つはセマンティック属性の線形結合によって説明可能で、もう1つは解釈できない機能のセットに依存します。

後者を特定することにより、モデルの「説明されていない」部分を分析し、モデルで使用される情報への洞察を得ることができます。
ラベル付けされていない機能のセットが、同じ機能空間でトレーニングされた複数のモデルに一般化できることを示し、2つの一般的な属性指向の方法、解釈可能な基礎分解と概念ボトルネックと比較し、ELUDEが提供する追加の洞察について説明します。

要約(オリジナル)

Deep learning models have achieved remarkable success in different areas of machine learning over the past decade; however, the size and complexity of these models make them difficult to understand. In an effort to make them more interpretable, several recent works focus on explaining parts of a deep neural network through human-interpretable, semantic attributes. However, it may be impossible to completely explain complex models using only semantic attributes. In this work, we propose to augment these attributes with a small set of uninterpretable features. Specifically, we develop a novel explanation framework ELUDE (Explanation via Labelled and Unlabelled DEcomposition) that decomposes a model’s prediction into two parts: one that is explainable through a linear combination of the semantic attributes, and another that is dependent on the set of uninterpretable features. By identifying the latter, we are able to analyze the ‘unexplained’ portion of the model, obtaining insights into the information used by the model. We show that the set of unlabelled features can generalize to multiple models trained with the same feature space and compare our work to two popular attribute-oriented methods, Interpretable Basis Decomposition and Concept Bottleneck, and discuss the additional insights ELUDE provides.

arxiv情報

著者 Vikram V. Ramaswamy,Sunnie S. Y. Kim,Nicole Meister,Ruth Fong,Olga Russakovsky
発行日 2022-06-15 17:36:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク