要約
自己教師付き事前トレーニングを使用した UNMT アプローチが、言語ペア間の語順の相違に対して堅牢であるかどうかを調査することを目的としています。
これは、同じ自己教師付き事前トレーニング目標で事前トレーニングされた 2 つのモデルを比較することで実現します。
最初のモデルは異なる語順の言語ペアでトレーニングされ、2 番目のモデルは同じ言語ペアでトレーニングされ、ソース言語はターゲット言語の語順と一致するように並べ替えられます。
理想的には、語順の相違に対して堅牢な UNMT アプローチは、2 つの構成間で目に見えるパフォーマンスの違いを示さないはずです。
このホワイト ペーパーでは、このような 2 つの自己教師あり事前トレーニング ベースの UNMT アプローチ、すなわち、Masked Sequence-to-Sequence Pre-Training (MASS) (シャッフル ノイズがない) と Denoising AutoEncoder (DAE) (ある) を調査します。
シャッフル ノイズ)。
ソース言語の語順が SVO (Subject-Verb
-Object)、ターゲット言語の語順は SOV (Subject-Object-Verb) です。
これらの言語ペアでは、DAE ベースの UNMT アプローチが一貫して翻訳精度の点で MASS よりも優れていることがわかりました。
さらに、並べ替えを使用して語順のギャップを埋めると、MASS ベースの UNMT モデルの翻訳精度が向上しますが、DAE ベースの UNMT モデルの翻訳精度は向上しません。
この観察結果は、DAE ベースの UNMT が、MASS ベースの UNMT よりも語順の発散に対してより堅牢であることを示しています。
DAE アプローチのワード シャッフル ノイズは、このアプローチがワード オーダーの発散に対してロバストである理由として考えられます。
要約(オリジナル)
We aim to investigate whether UNMT approaches with self-supervised pre-training are robust to word-order divergence between language pairs. We achieve this by comparing two models pre-trained with the same self-supervised pre-training objective. The first model is trained on language pairs with different word-orders, and the second model is trained on the same language pairs with source language re-ordered to match the word-order of the target language. Ideally, UNMT approaches which are robust to word-order divergence should exhibit no visible performance difference between the two configurations. In this paper, we investigate two such self-supervised pre-training based UNMT approaches, namely Masked Sequence-to-Sequence Pre-Training, (MASS) (which does not have shuffling noise) and Denoising AutoEncoder (DAE), (which has shuffling noise). We experiment with five English$\rightarrow$Indic language pairs, i.e., en-hi, en-bn, en-gu, en-kn, and en-ta) where word-order of the source language is SVO (Subject-Verb-Object), and the word-order of the target languages is SOV (Subject-Object-Verb). We observed that for these language pairs, DAE-based UNMT approach consistently outperforms MASS in terms of translation accuracies. Moreover, bridging the word-order gap using reordering improves the translation accuracy of MASS-based UNMT models, while it cannot improve the translation accuracy of DAE-based UNMT models. This observation indicates that DAE-based UNMT is more robust to word-order divergence than MASS-based UNMT. Word-shuffling noise in DAE approach could be the possible reason for the approach being robust to word-order divergence.
arxiv情報
| 著者 | Tamali Banerjee,Rudra Murthy V,Pushpak Bhattacharyya |
| 発行日 | 2023-03-02 12:11:58+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google