要約
目に見えない言語を英語との間で翻訳するために、単一の NMT モデルをトレーニングするための 2 段階のアプローチを提案します。
最初の段階では、エンコーダー/デコーダー モデルを事前トレーニング済みの XLM-R と RoBERTa の重みに初期化し、40 言語の並列データを英語に多言語で微調整します。
このモデルは、目に見えない言語のゼロショット翻訳に一般化できることがわかりました。
第 2 段階では、この一般化機能を活用して、単一言語のデータセットから合成並列データを生成し、双方向逆翻訳の連続ラウンドでトレーニングします。
私たちはこのアプローチを EcXTra ({E}nglish-{c}entric Crosslingual ({X}) {Tra}nsfer) と呼んでいます。
私たちのアプローチは概念的に単純で、全体を通して標準的なクロスエントロピーの目的のみを使用し、データ駆動型であり、補助的な並列データと単一言語データを順次活用しています。
リソースの少ない 7 つの言語で教師なし NMT の結果を評価したところ、逆翻訳トレーニングの各ラウンドが双方向のパフォーマンスをさらに改善することがわかりました。
最終的な単一の EcXTra トレーニング済みモデルは、すべての翻訳方向で競争力のある翻訳パフォーマンスを達成し、特に英語からカザフ語 (22.9 > 10.4 BLEU) の新しい最先端を確立しています。
要約(オリジナル)
We propose a two-stage approach for training a single NMT model to translate unseen languages both to and from English. For the first stage, we initialize an encoder-decoder model to pretrained XLM-R and RoBERTa weights, then perform multilingual fine-tuning on parallel data in 40 languages to English. We find this model can generalize to zero-shot translations on unseen languages. For the second stage, we leverage this generalization ability to generate synthetic parallel data from monolingual datasets, then train with successive rounds of bidirectional back-translation. We term our approach EcXTra ({E}nglish-{c}entric Crosslingual ({X}) {Tra}nsfer). Our approach is conceptually simple, only using a standard cross-entropy objective throughout, and also is data-driven, sequentially leveraging auxiliary parallel data and monolingual data. We evaluate our unsupervised NMT results on 7 low-resource languages, and find that each round of back-translation training further refines bidirectional performance. Our final single EcXTra-trained model achieves competitive translation performance in all translation directions, notably establishing a new state-of-the-art for English-to-Kazakh (22.9 > 10.4 BLEU).
arxiv情報
著者 | Bryan Li,Mohammad Sadegh Rasooli,Ajay Patel,Chris Callison-Burch |
発行日 | 2023-03-27 17:41:21+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google