Data Augmentations for Improved (Large) Language Model Generalization

要約

偽の相関にテキスト分類子を依存すると、導入時の一般化が不十分になる可能性があり、医療などの安全性が重要な領域での使用について懸念が生じます。
この研究では、データの因果構造の知識に基づいて反事実データ拡張を使用して、偽の特徴に対する介入をシミュレートし、より堅牢なテキスト分類子を学習することを提案します。
この戦略は、ラベルが属性と誤って相関する予測問題に適切であることを示します。
このような問題の仮定の下で、重要度の再重み付けと比較した、反事実データ増強の有利なサンプルの複雑さについて議論します。
実用的には、diff-in-diff 手法に基づいて補助データを使用して例を照合し、大規模言語モデル (LLM) を使用してテキストの条件付き確率を表します。
医療ナラティブおよび半合成データから臨床診断の介護者不変予測因子を学習する広範な実験を通じて、介入をシミュレートする方法がベースライン不変学習アルゴリズムと比較して分布外 (OOD) 精度を向上させることを実証しました。

要約(オリジナル)

The reliance of text classifiers on spurious correlations can lead to poor generalization at deployment, raising concerns about their use in safety-critical domains such as healthcare. In this work, we propose to use counterfactual data augmentation, guided by knowledge of the causal structure of the data, to simulate interventions on spurious features and to learn more robust text classifiers. We show that this strategy is appropriate in prediction problems where the label is spuriously correlated with an attribute. Under the assumptions of such problems, we discuss the favorable sample complexity of counterfactual data augmentation, compared to importance re-weighting. Pragmatically, we match examples using auxiliary data, based on diff-in-diff methodology, and use a large language model (LLM) to represent a conditional probability of text. Through extensive experimentation on learning caregiver-invariant predictors of clinical diagnoses from medical narratives and on semi-synthetic data, we demonstrate that our method for simulating interventions improves out-of-distribution (OOD) accuracy compared to baseline invariant learning algorithms.

arxiv情報

著者 Amir Feder,Yoav Wald,Claudia Shi,Suchi Saria,David Blei
発行日 2024-01-09 17:46:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク