PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation

要約

タイトル: PEACH: 半教師付き疑似対訳ドキュメント生成による翻訳用Pre-Training Sequence-to-Sequenceマルチリンガルモデルの事前学習

要約:
– マルチリンガルのPre-Trainingは、多言語NLPタスク、特に機械翻訳向けに有効である。
– 現存する多くの方法は、マスクされた言語モデリングおよびテキスト除去目的を含む単一言語のデータに基づく。
– 単一言語のデータでのマルチリンガルのPre-Trainingは、多言語ペアで並列データが利用可能であっても無視される。
– いくつかの他の方法は、利用可能な人間が作成した並列翻訳データをPre-Trainingに統合する。
– 本論文では、SPDGと呼ばれる新しい半教師付き方法を紹介し、多言語Pre-Training用の高品質な疑似対訳データを生成する。
– SPDGは、モノリンガルデータ上のディノイジングモデルに関するPre-Trainingに基づいて、疑似翻訳を生成する。
– 結果として得られる疑似対訳データは、次にPEACHと呼ばれるマルチリンガルSequence-to-SequenceモデルのPre-Trainingに使用される。
– 本論文に記載の実験は、本研究で作成されたPEACHが、mT5およびmBARTのトレーニングに使用される既存の手法よりも優れていることを示している。
– PEACHの言語間知識移転能力により、低リソース言語にとって特に有用であることがわかった。
– 精度が高く、正確な疑似対訳を生成するための辞書があれば、PEACHは低リソース言語にとって価値がある。

要約(オリジナル)

Multilingual pre-training significantly improves many multilingual NLP tasks, including machine translation. Most existing methods are based on some variants of masked language modeling and text-denoising objectives on monolingual data. Multilingual pre-training on monolingual data ignores the availability of parallel data in many language pairs. Also, some other works integrate the available human-generated parallel translation data in their pre-training. This kind of parallel data is definitely helpful, but it is limited even in high-resource language pairs. This paper introduces a novel semi-supervised method, SPDG, that generates high-quality pseudo-parallel data for multilingual pre-training. First, a denoising model is pre-trained on monolingual data to reorder, add, remove, and substitute words, enhancing the pre-training documents’ quality. Then, we generate different pseudo-translations for each pre-training document using dictionaries for word-by-word translation and applying the pre-trained denoising model. The resulting pseudo-parallel data is then used to pre-train our multilingual sequence-to-sequence model, PEACH. Our experiments show that PEACH outperforms existing approaches used in training mT5 and mBART on various translation tasks, including supervised, zero- and few-shot scenarios. Moreover, PEACH’s ability to transfer knowledge between similar languages makes it particularly useful for low-resource languages. Our results demonstrate that with high-quality dictionaries for generating accurate pseudo-parallel, PEACH can be valuable for low-resource languages.

arxiv情報

著者 Alireza Salemi,Amirhossein Abaskohi,Sara Tavakoli,Yadollah Yaghoobzadeh,Azadeh Shakery
発行日 2023-04-14 17:54:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク