Towards Faithful Model Explanation in NLP: A Survey

要約

エンドツーエンドのニューラル自然言語処理 (NLP) モデルは、理解するのが難しいことで有名です。
これにより、近年、モデルの説明可能性に向けた多くの取り組みが行われています。
モデルの説明に必要なことの 1 つは忠実さです。つまり、説明は、モデルの予測の背後にある推論プロセスを正確に表す必要があります。
この調査では、忠実度というレンズを通して、NLP の 110 以上のモデル説明方法を確認します。
最初に、忠実性の定義と評価、および説明可能性に対するその重要性について説明します。
次に、忠実な説明における最近の進歩を紹介し、既存のアプローチを 5 つのカテゴリにグループ化します。類似性手法、モデル内部構造の分析、逆伝播ベースの手法、反事実的介入、自明モデルです。
カテゴリごとに、代表的な研究、強み、弱みをまとめています。
最後に、それらの共通の美徳と残りの課題を要約し、NLP における忠実な説明可能性に向けた将来の作業の方向性について考察します。

要約(オリジナル)

End-to-end neural Natural Language Processing (NLP) models are notoriously difficult to understand. This has given rise to numerous efforts towards model explainability in recent years. One desideratum of model explanation is faithfulness, i.e. an explanation should accurately represent the reasoning process behind the model’s prediction. In this survey, we review over 110 model explanation methods in NLP through the lens of faithfulness. We first discuss the definition and evaluation of faithfulness, as well as its significance for explainability. We then introduce recent advances in faithful explanation, grouping existing approaches into five categories: similarity methods, analysis of model-internal structures, backpropagation-based methods, counterfactual intervention, and self-explanatory models. For each category, we synthesize its representative studies, strengths, and weaknesses. Finally, we summarize their common virtues and remaining challenges, and reflect on future work directions towards faithful explainability in NLP.

arxiv情報

著者 Qing Lyu,Marianna Apidianaki,Chris Callison-Burch
発行日 2023-02-21 21:23:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク