Beyond Shared Vocabulary: Increasing Representational Word Similarities across Languages for Multilingual Machine Translation

要約

共有語彙を使用することは、多言語ニューラル機械翻訳 (MNMT) では一般的な方法です。
シンプルなデザインに加えて、共有トークンは積極的な知識伝達において重要な役割を果たします。共有トークンが言語間で同様の意味を参照する場合、それは自然に現れます。
ただし、このような設計には当然の欠陥も存在します。1) 言語が異なる書記体系を使用している場合、転送は阻害されます。2) 言語が類似の書記体系を使用している場合でも、共有トークンは言語ごとにまったく異なる意味を持つ可能性があり、曖昧さが増大します。
この論文では、最初の問題を軽減するために、埋め込みを構築するための再パラメータ化された方法を提案します。
より具体的には、単語同値クラスを介して単語レベルの情報伝達経路を定義し、グラフ ネットワークを利用して言語間の単語埋め込みを融合します。
私たちの実験は、私たちのアプローチの利点を示しています。1) 埋め込みのセマンティクスが言語間でよりよく調整されている、2) 私たちの方法は、高リソースおよび低リソースの MNMT で BLEU の大幅な改善を達成しています、そして 3) 追加のトレーニング可能なパラメーターはわずか 1.0\% 未満です
計算コストの増加は限定的ですが、必要となります。

要約(オリジナル)

Using a shared vocabulary is common practice in Multilingual Neural Machine Translation (MNMT). In addition to its simple design, shared tokens play an important role in positive knowledge transfer, which manifests naturally when the shared tokens refer to similar meanings across languages. However, natural flaws exist in such a design as well: 1) when languages use different writing systems, transfer is inhibited, and 2) even if languages use similar writing systems, shared tokens may have completely different meanings in different languages, increasing ambiguity. In this paper, we propose a re-parameterized method for building embeddings to alleviate the first problem. More specifically, we define word-level information transfer pathways via word equivalence classes and rely on graph networks to fuse word embeddings across languages. Our experiments demonstrate the advantages of our approach: 1) the semantics of embeddings are better aligned across languages, 2) our method achieves significant BLEU improvements on high- and low-resource MNMT, and 3) only less than 1.0\% additional trainable parameters are required with a limited increase in computational costs.

arxiv情報

著者 Di Wu,Christof Monz
発行日 2023-05-23 16:11:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク