PEACH: Pre-Training Sequence-to-Sequence Multilingual Models for Translation with Semi-Supervised Pseudo-Parallel Document Generation

要約

タイトル:PEACH: 半教師付き擬似並列文書生成を用いた翻訳のための事前学習したシーケンスからシーケンスへの多言語モデル。

要約:
– 多言語事前学習は、機械翻訳を含む多くの多言語NLPタスクを大幅に向上させます。
– 既存の多くの方法は、マスクされた言語モデリングとテキストノイズ除去目的に基づいています。
– 一方、多言語の事前学習では、多数の言語ペアで並列データの利用可能性を無視しています。
– この論文では、半教師付き方法であるSPDGを紹介しています。SPDGは、多言語の事前学習において、高品質な疑似並列データを生成します。
– SPDGは、モノリンガルデータ上でノイズ除去モデルを事前学習し、単語の並べ替え、追加、削除、そして代替を行うことにより、事前学習ドキュメントの品質を向上させます。
– 次に、単語ごとの翻訳のために辞書を使用し、事前学習済みのノイズ除去モデルを適用して、異なる疑似翻訳を生成します。
– 結果として得られる疑似並列データを使用して、PEACHと呼ばれる多言語シーケンスからシーケンスモデルを事前学習します。
– 実験の結果、PEACHは、mT5とmBARTのトレーニングに使用される既存のアプローチよりも、監視された、ゼロ-および少数ショットのシナリオを含むさまざまな翻訳タスクにおいて優れた性能を発揮します。
– さらに、似たような言語間で知識を転送するPEACHの能力は、低リソース言語に特に有用です。
– 結果は、正確な疑似並列の生成に高品質な辞書があれば、PEACHは低リソースの言語に対しても価値があることを示しています。

要約(オリジナル)

Multilingual pre-training significantly improves many multilingual NLP tasks, including machine translation. Most existing methods are based on some variants of masked language modeling and text-denoising objectives on monolingual data. Multilingual pre-training on monolingual data ignores the availability of parallel data in many language pairs. Also, some other works integrate the available human-generated parallel translation data in their pre-training. This kind of parallel data is definitely helpful, but it is limited even in high-resource language pairs. This paper introduces a novel semi-supervised method, SPDG, that generates high-quality pseudo-parallel data for multilingual pre-training. First, a denoising model is pre-trained on monolingual data to reorder, add, remove, and substitute words, enhancing the pre-training documents’ quality. Then, we generate different pseudo-translations for each pre-training document using dictionaries for word-by-word translation and applying the pre-trained denoising model. The resulting pseudo-parallel data is then used to pre-train our multilingual sequence-to-sequence model, PEACH. Our experiments show that PEACH outperforms existing approaches used in training mT5 and mBART on various translation tasks, including supervised, zero- and few-shot scenarios. Moreover, PEACH’s ability to transfer knowledge between similar languages makes it particularly useful for low-resource languages. Our results demonstrate that with high-quality dictionaries for generating accurate pseudo-parallel, PEACH can be valuable for low-resource languages.

arxiv情報

著者 Alireza Salemi,Amirhossein Abaskohi,Sara Tavakoli,Yadollah Yaghoobzadeh,Azadeh Shakery
発行日 2023-04-03 18:19:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL パーマリンク