Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation

要約

多言語ニューラル機械翻訳 (MNMT) では、言語間で共有される語彙を使用するのが一般的です。
共有トークンは、そのシンプルな設計に加えて、言語間で同様の意味を指すと想定され、積極的な知識伝達において重要な役割を果たします。
ただし、特に書記体系が異なるために単語の重複が小さい場合、転送は禁止されます。
この論文では、単語同値クラスを介して単語レベルの情報伝達経路を定義し、グラフ ネットワークを利用して言語間の単語埋め込みを融合します。
私たちの実験は、私たちのアプローチの利点を示しています: 1) 同様の意味を持つ単語の埋め込みが言語間でより適切に調整される、2) 私たちの方法は、高リソースおよび低リソースの MNMT で最大 2.3 ポイントの一貫した BLEU 改善を達成し、3) 未満の BLEU 改善を達成します。
1.0\% の追加のトレーニング可能なパラメータが必要ですが、計算コストの増加は限られていますが、推論時間はベースラインと同じままです。
コードベースをコミュニティにリリースします。

要約(オリジナル)

Using a vocabulary that is shared across languages is common practice in Multilingual Neural Machine Translation (MNMT). In addition to its simple design, shared tokens play an important role in positive knowledge transfer, assuming that shared tokens refer to similar meanings across languages. However, when word overlap is small, especially due to different writing systems, transfer is inhibited. In this paper, we define word-level information transfer pathways via word equivalence classes and rely on graph networks to fuse word embeddings across languages. Our experiments demonstrate the advantages of our approach: 1) embeddings of words with similar meanings are better aligned across languages, 2) our method achieves consistent BLEU improvements of up to 2.3 points for high- and low-resource MNMT, and 3) less than 1.0\% additional trainable parameters are required with a limited increase in computational costs, while inference time remains identical to the baseline. We release the codebase to the community.

arxiv情報

著者 Di Wu,Christof Monz
発行日 2023-10-10 11:27:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク