On-the-fly Denoising for Data Augmentation in Natural Language Understanding

要約

データ拡張 (DA) は、人による追加の注釈なしで追加のトレーニング データを自動的に提供するためによく使用されます。
ただし、データ拡張により、トレーニングに悪影響を与えるノイズの多いデータが導入される可能性があります。
拡張データの品質を保証するために、既存の方法では、拡張データにノイズが存在しないと仮定して一貫性トレーニングを採用するか、トレーニング損失や多様性制約などの単純なヒューリスティックを使用して「ノイズのある」データをフィルターで除外します。
ただし、これらのフィルタリングされた例には有用な情報が含まれている可能性があり、それらを完全に削除すると監視信号が失われます。
この論文では、元のデータセットが拡張データよりもクリーンであるという仮定に基づいて、よりクリーンな元データでトレーニングされた有機教師モデルによって提供されるソフト拡張ラベルから学習する、データ拡張のためのオンザフライノイズ除去手法を提案します。

ノイズの多いラベルでの過剰適合をさらに防ぐために、単純な自己正則化モジュールを適用して、モデル予測が 2 つの異なるドロップアウトにわたって一貫性を持つように強制します。
私たちの方法は一般的な拡張技術に適用でき、テキスト分類タスクと質問応答タスクの両方のパフォーマンスを一貫して向上させることができます。

要約(オリジナル)

Data Augmentation (DA) is frequently used to provide additional training data without extra human annotation automatically. However, data augmentation may introduce noisy data that impairs training. To guarantee the quality of augmented data, existing methods either assume no noise exists in the augmented data and adopt consistency training or use simple heuristics such as training loss and diversity constraints to filter out ‘noisy’ data. However, those filtered examples may still contain useful information, and dropping them completely causes a loss of supervision signals. In this paper, based on the assumption that the original dataset is cleaner than the augmented data, we propose an on-the-fly denoising technique for data augmentation that learns from soft augmented labels provided by an organic teacher model trained on the cleaner original data. To further prevent overfitting on noisy labels, a simple self-regularization module is applied to force the model prediction to be consistent across two distinct dropouts. Our method can be applied to general augmentation techniques and consistently improve the performance on both text classification and question-answering tasks.

arxiv情報

著者 Tianqing Fang,Wenxuan Zhou,Fangyu Liu,Hongming Zhang,Yangqiu Song,Muhao Chen
発行日 2024-01-31 13:14:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク