Synthetic Data Generation and Joint Learning for Robust Code-Mixed Translation

要約

現代の多言語世界におけるオンライン コミュニケーションの普及により、1 回の発話で複数の言語 (別名コード混合言語) を混合する機会が提供されています。
これにより、注釈付きデータの不足とノイズの存在により、計算モデルにとって大きな課題が生じています。
リソースが少ないセットアップにおけるデータ不足の問題を軽減する潜在的な解決策は、翻訳を通じてリソースが豊富な言語で既存のデータを活用することです。
この論文では、コード混合 (ヒングリッシュとベンガル語) から英語への機械翻訳の問題に取り組みます。
まず、ヒングリッシュと英語の対訳コーパスである HINMIX を、約 420 万の文ペアから総合的に開発します。
続いて、クリーンな単語とノイズの多い単語間でパラメーターを共有することによって、現実世界のコードが混在したテキストのノイズを処理する方法を学習する、ロバストな摂動ベースの共同トレーニング モデルである RCMT を提案します。
さらに、ベンガル語から英語への翻訳のゼロショット設定における RCMT の適応性を示します。
私たちの評価と包括的な分析は、最先端のコード混合の堅牢な翻訳手法に対する RCMT の優位性を定性的および定量的に実証しています。

要約(オリジナル)

The widespread online communication in a modern multilingual world has provided opportunities to blend more than one language (aka code-mixed language) in a single utterance. This has resulted a formidable challenge for the computational models due to the scarcity of annotated data and presence of noise. A potential solution to mitigate the data scarcity problem in low-resource setup is to leverage existing data in resource-rich language through translation. In this paper, we tackle the problem of code-mixed (Hinglish and Bengalish) to English machine translation. First, we synthetically develop HINMIX, a parallel corpus of Hinglish to English, with ~4.2M sentence pairs. Subsequently, we propose RCMT, a robust perturbation based joint-training model that learns to handle noise in the real-world code-mixed text by parameter sharing across clean and noisy words. Further, we show the adaptability of RCMT in a zero-shot setup for Bengalish to English translation. Our evaluation and comprehensive analyses qualitatively and quantitatively demonstrate the superiority of RCMT over state-of-the-art code-mixed and robust translation methods.

arxiv情報

著者 Kartik,Sanjana Soni,Anoop Kunchukuttan,Tanmoy Chakraborty,Md Shad Akhtar
発行日 2024-03-25 13:50:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク