Enhancing the Rationale-Input Alignment for Self-explaining Rationalization

要約

合理化により、協力ゲームを通じて深層学習モデルに自己説明機能が与えられます。ジェネレーターは意味的に一貫した入力のサブセットを根拠として選択し、後続の予測子は選択された根拠に基づいて予測を行います。
この論文では、合理化には、協力ゲームのアルゴリズムのバイアスから生じる \emph{合理的シフト} という問題が発生しやすいことを発見しました。
理論的シフトとは、選択された理論的根拠のセマンティクスが元の入力から逸脱する可能性があるが、予測子がその逸脱に基づいて正確な予測を生成し、その結果、誤解を招くフィードバックを伴う問題のあるジェネレーターが生成される状況を指します。
この問題に対処するために、私たちはまず、実証的観察と理論的分析の両方を通じて、理論的根拠と完全なインプットの間の整合性の重要性を実証します。
続いて、DAR (\textbf{D}iscriminatively \textbf{A}ligned \textbf{R}ationalization) と呼ばれる新しいアプローチを導入します。これは、選択された理論的根拠と元の入力を識別的に調整するために完全な入力に対して事前トレーニングされた補助モジュールを利用します。

我々は、DAR がどのようにして望ましい調整を達成し、それによって理論的根拠のシフトの問題を克服するかを理論的に説明します。
広く使用されている 2 つの現実のベンチマークでの実験では、提案された手法が、最先端の手法と比較して、説明の質 (モデルが選択した説明と人間が注釈を付けた理論的根拠との重複によって測定) が大幅に向上することが示されています。
さらに、2 つの合成設定での結果は、理論的根拠のシフトの問題に対処する際の DAR の有効性をさらに検証します。

要約(オリジナル)

Rationalization empowers deep learning models with self-explaining capabilities through a cooperative game, where a generator selects a semantically consistent subset of the input as a rationale, and a subsequent predictor makes predictions based on the selected rationale. In this paper, we discover that rationalization is prone to a problem named \emph{rationale shift}, which arises from the algorithmic bias of the cooperative game. Rationale shift refers to a situation where the semantics of the selected rationale may deviate from the original input, but the predictor still produces accurate predictions based on the deviation, resulting in a compromised generator with misleading feedback. To address this issue, we first demonstrate the importance of the alignment between the rationale and the full input through both empirical observations and theoretical analysis. Subsequently, we introduce a novel approach called DAR (\textbf{D}iscriminatively \textbf{A}ligned \textbf{R}ationalization), which utilizes an auxiliary module pretrained on the full input to discriminatively align the selected rationale and the original input. We theoretically illustrate how DAR accomplishes the desired alignment, thereby overcoming the rationale shift problem. The experiments on two widely used real-world benchmarks show that the proposed method significantly improves the explanation quality (measured by the overlap between the model-selected explanation and the human-annotated rationale) as compared to state-of-the-art techniques. Additionally, results on two synthetic settings further validate the effectiveness of DAR in addressing the rationale shift problem.

arxiv情報

著者 Wei Liu,Haozhao Wang,Jun Wang,Zhiying Deng,YuanKai Zhang,Cheng Wang,Ruixuan Li
発行日 2023-12-07 07:37:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク