How to Learn in a Noisy World? Self-Correcting the Real-World Data Noise in Machine Translation

要約

膨大な量のWebマイインドパラレルデータには、大量のノイズが含まれています。
ノイズの主な原因としてのセマンティックの不整合は、機械翻訳システムをトレーニングするための課題となります。
この論文では、最初に、現実世界のWebがクロールしたコーパスの誤った整列された文によく似たセマンティックの類似性によって制御される不整合をシミュレートするプロセスを紹介します。
シミュレートされた不整合ノイズ設定の下で、機械翻訳への影響を定量的に分析し、騒音検出に広く使用されているプレフィルターの限られた有効性を示します。
これは、検出が難しい不整合ノイズを処理するためのより細かい方法の必要性を強調しています。
トークンレベルでの誤った整列とクリーンデータを区別するためのモデルの自己認識の信頼性の向上を観察することで、トレーニング監督を修正するためにモデルの自己知識への信頼を徐々に増やすアプローチを提案します。
包括的な実験は、シミュレートされたミスアライメントノイズの存在下と、さまざまな翻訳タスクにわたって、実世界の騒々しいWebマイインドデータセットに適用される場合の両方で、翻訳性能を大幅に改善することを示しています。

要約(オリジナル)

The massive amounts of web-mined parallel data contain large amounts of noise. Semantic misalignment, as the primary source of the noise, poses a challenge for training machine translation systems. In this paper, we first introduce a process for simulating misalignment controlled by semantic similarity, which closely resembles misaligned sentences in real-world web-crawled corpora. Under our simulated misalignment noise settings, we quantitatively analyze its impact on machine translation and demonstrate the limited effectiveness of widely used pre-filters for noise detection. This underscores the necessity of more fine-grained ways to handle hard-to-detect misalignment noise. With an observation of the increasing reliability of the model’s self-knowledge for distinguishing misaligned and clean data at the token level, we propose self-correction, an approach that gradually increases trust in the model’s self-knowledge to correct the training supervision. Comprehensive experiments show that our method significantly improves translation performance both in the presence of simulated misalignment noise and when applied to real-world, noisy web-mined datasets, across a range of translation tasks.

arxiv情報

著者 Yan Meng,Di Wu,Christof Monz
発行日 2025-02-07 15:03:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク