Iterative Counterfactual Data Augmentation

要約

反事実データ増強(CDA)は、通常、対立するバイアスを持つ補完的なデータセットを生成することにより、データセットのトレーニングで情報またはバイアスを制御する方法です。
多くの場合、事前の作業は、拡張データセットに不要な情報を残す可能性のある手作りのルールまたはアルゴリズムCDAメソッドに依存しています。
この作業では、初期の高ノイズ介入を伴う反復CDA(ICDA)が、騒音が大幅に低い状態に収束する可能性があることを示します。
ICDAの手順では、トレーニングデータセットの1つのターゲット信号が対応するラベルを使用して高い相互情報を維持し、スプリアス信号の情報が削減されるデータセットを作成します。
増強されたデータセットに関するトレーニングは、人間の注釈とより適切な文書に理論的根拠を生成します。
私たちの実験には、6つのヒト生産データセットと2つの大ランゲージモデル生成データセットが含まれます。

要約(オリジナル)

Counterfactual data augmentation (CDA) is a method for controlling information or biases in training datasets by generating a complementary dataset with typically opposing biases. Prior work often either relies on hand-crafted rules or algorithmic CDA methods which can leave unwanted information in the augmented dataset. In this work, we show iterative CDA (ICDA) with initial, high-noise interventions can converge to a state with significantly lower noise. Our ICDA procedure produces a dataset where one target signal in the training dataset maintains high mutual information with a corresponding label and the information of spurious signals are reduced. We show training on the augmented datasets produces rationales on documents that better align with human annotation. Our experiments include six human produced datasets and two large-language model generated datasets.

arxiv情報

著者 Mitchell Plyler,Min Chi
発行日 2025-02-25 14:33:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.IT, cs.LG, math.IT パーマリンク