Decoupled Vocabulary Learning Enables Zero-Shot Translation from Unseen Languages

要約

多言語ニューラル機械翻訳システムは、異なる言語の文を共通の表現空間にマッピングすることを学習します。
直観的には、使用される言語の数が増えるにつれて、エンコーダの文表現はより柔軟になり、新しい言語に簡単に適応できるようになります。
この研究では、未知の言語からのゼロショット翻訳によってこの仮説をテストします。
未知の言語からの未知の語彙に対処するために、語彙と構文の学習を切り離すセットアップを提案します。つまり、言語ごとに単語の表現を別のステップで学習し(言語間の単語埋め込みを使用して)、それらを維持しながら翻訳のトレーニングを行います。
単語の表現が凍結されました。
この設定により、まったく未知の言語からのゼロショット翻訳が可能になることを実証します。
ゲルマン語とロマンス語でトレーニングされたモデルを使用したゼロショット翻訳では、TED ドメインでポルトガル語 – 英語で 42.6 BLEU、ロシア語 – 英語で 20.7 BLEU のスコアを達成しました。
このゼロショット翻訳機能が、エンコーダーが認識するさまざまな数の言語でどのように発展するかを調査します。
最後に、教師なし機械翻訳に対する分離学習戦略の有効性を調査します。
モデルのゼロショット変換機能を反復逆変換に利用することで、教師あり設定とほぼ同等の値を達成します。

要約(オリジナル)

Multilingual neural machine translation systems learn to map sentences of different languages into a common representation space. Intuitively, with a growing number of seen languages the encoder sentence representation grows more flexible and easily adaptable to new languages. In this work, we test this hypothesis by zero-shot translating from unseen languages. To deal with unknown vocabularies from unknown languages we propose a setup where we decouple learning of vocabulary and syntax, i.e. for each language we learn word representations in a separate step (using cross-lingual word embeddings), and then train to translate while keeping those word representations frozen. We demonstrate that this setup enables zero-shot translation from entirely unseen languages. Zero-shot translating with a model trained on Germanic and Romance languages we achieve scores of 42.6 BLEU for Portuguese-English and 20.7 BLEU for Russian-English on TED domain. We explore how this zero-shot translation capability develops with varying number of languages seen by the encoder. Lastly, we explore the effectiveness of our decoupled learning strategy for unsupervised machine translation. By exploiting our model’s zero-shot translation capability for iterative back-translation we attain near parity with a supervised setting.

arxiv情報

著者 Carlos Mullov,Ngoc-Quan Pham,Alexander Waibel
発行日 2024-08-05 07:58:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク