Explanation Regularisation through the Lens of Attributions

要約

説明正則化 (ER) は、より人間に近い方法でモデルの予測を行う、つまり属性を「もっともらしく」するようにモデルをガイドする方法として導入されました。
これは、モデルの入力帰属手法の出力が、人間が注釈を付けた関連する理論的根拠とどの程度一致しているかを測定する補助的な説明損失を導入することによって実現されます。
ER の使用によるプラスの結果の 1 つは、ドメイン外 (OOD) 設定でのパフォーマンスの向上であると考えられます。これは、おそらく「妥当な」トークンへの依存度が高まったためと考えられます。
しかし、これまでの研究では、特に ER のトレーニングに使用されたもの以外の手法で取得された場合の、モデルの属性に対する ER の目的の影響については十分に調査されていませんでした。
この研究では、妥当なトークンに関する分類決定の情報提供における ER の有効性と、妥当性の向上と OOD 条件に対する堅牢性の関係についての研究に貢献します。
一連の分析を通じて、ER と、もっともらしい特徴に依存する分類器の能力との関係が誇張されており、もっともらしいトークンへの依存の強化が、知覚される OOD 改善の原因ではないようであることがわかりました。

要約(オリジナル)

Explanation regularisation (ER) has been introduced as a way to guide models to make their predictions in a manner more akin to humans, i.e., making their attributions ‘plausible’. This is achieved by introducing an auxiliary explanation loss, that measures how well the output of an input attribution technique for the model agrees with relevant human-annotated rationales. One positive outcome of using ER appears to be improved performance in out-of-domain (OOD) settings, presumably due to an increased reliance on ‘plausible’ tokens. However, previous work has under-explored the impact of the ER objective on model attributions, in particular when obtained with techniques other than the one used to train ER. In this work, we contribute a study of ER’s effectiveness at informing classification decisions on plausible tokens, and the relationship between increased plausibility and robustness to OOD conditions. Through a series of analyses, we find that the connection between ER and the ability of a classifier to rely on plausible features has been overstated and that a stronger reliance on plausible tokens does not seem to be the cause for any perceived OOD improvements.

arxiv情報

著者 Pedro Ferreira,Wilker Aziz,Ivan Titov
発行日 2024-07-23 17:56:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク