Adversarial Attack for Explanation Robustness of Rationalization Models

要約

合理化モデルは、人間が予測を理解して信頼するために重要な論理的根拠として入力テキストのサブセットを選択するもので、最近、説明可能な人工知能の著名な研究分野として浮上しています。
しかし、これまでの研究の多くは根拠の質を向上させることに主眼が置かれており、悪意のある攻撃に対する堅牢性は無視されていました。
特に、合理化モデルが敵対的攻撃下でも高品質の理論的根拠を生成できるかどうかは不明のままです。
これを調査するために、この論文では、予測を変更することなく合理化モデルの説明可能性を損ない、それによって人間のユーザーからこれらのモデルに対する不信感を引き出すことを目的とした UAT2E を提案します。
UAT2E は、トリガーに対して勾配ベースの検索を採用し、それらを元の入力に挿入して、非ターゲット攻撃とターゲット攻撃の両方を実行します。
5 つのデータセットに関する実験結果から、説明の観点から合理化モデルの脆弱性が明らかになりました。合理化モデルは攻撃下でより無意味なトークンを選択する傾向があります。
これに基づいて、説明の観点から合理化モデルを改善するための一連の推奨事項を作成します。

要約(オリジナル)

Rationalization models, which select a subset of input text as rationale-crucial for humans to understand and trust predictions-have recently emerged as a prominent research area in eXplainable Artificial Intelligence. However, most of previous studies mainly focus on improving the quality of the rationale, ignoring its robustness to malicious attack. Specifically, whether the rationalization models can still generate high-quality rationale under the adversarial attack remains unknown. To explore this, this paper proposes UAT2E, which aims to undermine the explainability of rationalization models without altering their predictions, thereby eliciting distrust in these models from human users. UAT2E employs the gradient-based search on triggers and then inserts them into the original input to conduct both the non-target and target attack. Experimental results on five datasets reveal the vulnerability of rationalization models in terms of explanation, where they tend to select more meaningless tokens under attacks. Based on this, we make a series of recommendations for improving rationalization models in terms of explanation.

arxiv情報

著者 Yuankai Zhang,Lingxiao Kong,Haozhao Wang,Ruixuan Li,Jun Wang,Yuhua Li,Wei Liu
発行日 2024-09-18 12:44:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク