Unlock the Potential of Counterfactually-Augmented Data in Out-Of-Distribution Generalization

要約

反事実拡張データ (CAD) — 対応するラベルを反転するための最小限の文章編集 — は、CAD が言語モデルにドメイン非依存性を活用するよう誘導するため、言語モデルの配布外 (OOD) 一般化機能を向上させる可能性があります。
因果関係を分析し、偽の相関関係を除外します。
ただし、CAD の OOD 一般化の経験的結果は、予想されたほど効率的ではありません。
この研究では、非効率性の原因は CAD によって引き起こされる近視現象であると考えています。言語モデルは、拡張操作で編集された因果的特徴のみに焦点を当て、編集されていない他の因果的特徴を除外します。
したがって、CAD の潜在能力が十分に活用されていません。
この問題に対処するために、特徴空間での近視現象をフィッシャーの線形判別式の観点から分析し、言語モデルがより完全な因果関係の特徴を抽出できるように、CAD の構造特性 (データセット レベルと文レベル) に基づいた 2 つの追加の制約を導入します。
これにより、近視現象が軽減され、OOD 一般化機能が向上します。
私たちは感情分析と自然言語推論という 2 つのタスクで私たちの方法を評価しました。実験結果は、私たちの方法が CAD の可能性を解き放ち、言語モデルの OOD 一般化パフォーマンスを 1.0% から 5.9% 向上させることができることを示しています。

要約(オリジナル)

Counterfactually-Augmented Data (CAD) — minimal editing of sentences to flip the corresponding labels — has the potential to improve the Out-Of-Distribution (OOD) generalization capability of language models, as CAD induces language models to exploit domain-independent causal features and exclude spurious correlations. However, the empirical results of CAD’s OOD generalization are not as efficient as anticipated. In this study, we attribute the inefficiency to the myopia phenomenon caused by CAD: language models only focus on causal features that are edited in the augmentation operation and exclude other non-edited causal features. Therefore, the potential of CAD is not fully exploited. To address this issue, we analyze the myopia phenomenon in feature space from the perspective of Fisher’s Linear Discriminant, then we introduce two additional constraints based on CAD’s structural properties (dataset-level and sentence-level) to help language models extract more complete causal features in CAD, thereby mitigating the myopia phenomenon and improving OOD generalization capability. We evaluate our method on two tasks: Sentiment Analysis and Natural Language Inference, and the experimental results demonstrate that our method could unlock the potential of CAD and improve the OOD generalization performance of language models by 1.0% to 5.9%.

arxiv情報

著者 Caoyun Fan,Wenqing Chen,Jidong Tian,Yitian Li,Hao He,Yaohui Jin
発行日 2023-10-10 14:41:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク