要約
効果的な機械学習モデルをトレーニングするには、正しいラベルが不可欠です。
ただし、高品質のラベルの作成には費用がかかり、専門的にラベル付けされたデータにもエラーや曖昧さが含まれています。
追加の処理と情報の損失を犠牲にして、トレーニング前にラベル付きデータを厳選するためにフィルタリングとノイズ除去を適用できます。
別の方法は、トレーニング プロセス中にオンザフライでサンプルの重み付けを変更して、不正確または曖昧なラベルによる悪影響を軽減することですが、これには通常、クリーンなシード データが必要です。
この研究では、トレーニング サンプルの重みを変更するための教師なしオンザフライ メタロス再スケーリングを提案します。
重要なのは、真にクリーンなデータ分布の知識がなくても、リアルタイムでリスケーリング関数を学習するために、トレーニング対象のモデルによって提供される特徴のみに依存することです。
これは、トレーニング中のリスケーリング関数を使用することで、ノイズを含むトレーニング コーパスからメタ更新の検証データを直接サンプリングする、新しいメタ学習セットアップによって実現されます。
私たちが提案する方法は、最小限の計算オーバーヘッドでさまざまな NLP タスク全体のパフォーマンスを一貫して向上させます。
さらに、私たちは、ノイズが多く曖昧なラベルが一般的である対話モデリングという困難なタスクにおいて、オンザフライのトレーニング データの重み付けを再試行した最初の企業の 1 つです。
私たちの戦略は、ノイズの多いデータとクリーンなデータに直面しても堅牢であり、クラスの不均衡を処理し、ノイズの多いラベルへの過剰適合を防ぎます。
独学で学習した損失リスケーリングはモデルがトレーニングされるにつれて改善し、モデル自体の信号から学習し続ける能力を示しています。
トレーニングが進行するにつれて、正しくラベル付けされたデータの影響は拡大しますが、誤ってラベル付けされたデータの影響は抑制されます。
要約(オリジナル)
Correct labels are indispensable for training effective machine learning models. However, creating high-quality labels is expensive, and even professionally labeled data contains errors and ambiguities. Filtering and denoising can be applied to curate labeled data prior to training, at the cost of additional processing and loss of information. An alternative is on-the-fly sample reweighting during the training process to decrease the negative impact of incorrect or ambiguous labels, but this typically requires clean seed data. In this work we propose unsupervised on-the-fly meta loss rescaling to reweight training samples. Crucially, we rely only on features provided by the model being trained, to learn a rescaling function in real time without knowledge of the true clean data distribution. We achieve this via a novel meta learning setup that samples validation data for the meta update directly from the noisy training corpus by employing the rescaling function being trained. Our proposed method consistently improves performance across various NLP tasks with minimal computational overhead. Further, we are among the first to attempt on-the-fly training data reweighting on the challenging task of dialogue modeling, where noisy and ambiguous labels are common. Our strategy is robust in the face of noisy and clean data, handles class imbalance, and prevents overfitting to noisy labels. Our self-taught loss rescaling improves as the model trains, showing the ability to keep learning from the model’s own signals. As training progresses, the impact of correctly labeled data is scaled up, while the impact of wrongly labeled data is suppressed.
arxiv情報
著者 | Michael Heck,Christian Geishauser,Nurul Lubis,Carel van Niekerk,Shutong Feng,Hsien-Chin Lin,Benjamin Matthias Ruppik,Renato Vukovic,Milica Gašić |
発行日 | 2024-12-17 14:37:50+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google