Asymmetric feature interaction for interpreting model predictions

要約

自然言語処理 (NLP) では、ディープ ニューラル ネットワーク (DNN) はコンテキスト間の複雑な相互作用をモデル化し、さまざまな NLP タスクで素晴らしい結果を達成しました。
特徴の相互作用の帰属に関するこれまでの研究は主に、単語の組み合わせによる追加の影響のみを説明する対称的な相互作用の研究に焦点を当てており、モデルの予測に寄与する非対称な影響を捉えることができませんでした。
この研究では、ディープ ニューラル NLP モデルの推論における非対称の高次特徴相互作用を探索することを目的とした、非対称特徴相互作用帰属説明モデルを提案します。
私たちの説明を有向相互作用グラフで表すことにより、非対称特徴相互作用を発見するためのグラフの解釈可能性を実験的に実証します。
2 つのセンチメント分類データセットに関する実験結果は、モデル予測に影響を与える特徴を特定する際に、最先端の特徴相互作用帰属手法と比較して、私たちのモデルが優れていることを示しています。
私たちのコードは https://github.com/StillLu/ASIV で入手できます。

要約(オリジナル)

In natural language processing (NLP), deep neural networks (DNNs) could model complex interactions between context and have achieved impressive results on a range of NLP tasks. Prior works on feature interaction attribution mainly focus on studying symmetric interaction that only explains the additional influence of a set of words in combination, which fails to capture asymmetric influence that contributes to model prediction. In this work, we propose an asymmetric feature interaction attribution explanation model that aims to explore asymmetric higher-order feature interactions in the inference of deep neural NLP models. By representing our explanation with an directed interaction graph, we experimentally demonstrate interpretability of the graph to discover asymmetric feature interactions. Experimental results on two sentiment classification datasets show the superiority of our model against the state-of-the-art feature interaction attribution methods in identifying influential features for model predictions. Our code is available at https://github.com/StillLu/ASIV.

arxiv情報

著者 Xiaolei Lu,Jianghong Ma,Haode Zhang
発行日 2023-08-29 00:56:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク