Bilex Rx: Lexical Data Augmentation for Massively Multilingual Machine Translation

要約

ニューラル機械翻訳 (NMT) は過去数年間で急速に進歩しており、最新のモデルは、教師なし機械翻訳 (UNMT) と呼ばれるアプローチで、単一言語のテキスト データのみを使用して比較的高い品質を達成できます。
ただし、これらのモデルは、人間にとって最も簡単な翻訳の側面を含め、さまざまな方法で苦労しています。たとえば、一般名詞を正しく翻訳することです。
この作業では、この問題に対処するための安価で豊富なリソース、つまりバイリンガルの辞書を調査します。
Web クロールされたテキストでトレーニングされた 200 言語の翻訳モデルで、現実世界の設定でバイリンガル辞書の有効性をテストします。
いくつかの調査結果を提示します。(1) 字句データ拡張を使用して、教師なし翻訳のパフォーマンスが大幅に向上することを示します。
(2) データ拡張のいくつかのファミリを比較し、それらが同様の改善をもたらし、さらに大きな改善のために組み合わせることができることを示します。
(3)特に大規模なモデルでは、大規模でノイズの多いものよりも慎重にキュレーションされたレキシカの重要性を示します。
(4) 多言語辞書データと人間が翻訳した並列データの有効性を比較します。
最後に、GATITOS (https://github.com/google-research/url-nlp/tree/main/gatitos で入手可能) をオープンソース化しました。これは、26 のリソースの少ない言語用の新しい多言語レキシコンであり、その中で最高のパフォーマンスを発揮しました。
私たちの実験ではlexica。

要約(オリジナル)

Neural machine translation (NMT) has progressed rapidly over the past several years, and modern models are able to achieve relatively high quality using only monolingual text data, an approach dubbed Unsupervised Machine Translation (UNMT). However, these models still struggle in a variety of ways, including aspects of translation that for a human are the easiest – for instance, correctly translating common nouns. This work explores a cheap and abundant resource to combat this problem: bilingual lexica. We test the efficacy of bilingual lexica in a real-world set-up, on 200-language translation models trained on web-crawled text. We present several findings: (1) using lexical data augmentation, we demonstrate sizable performance gains for unsupervised translation; (2) we compare several families of data augmentation, demonstrating that they yield similar improvements, and can be combined for even greater improvements; (3) we demonstrate the importance of carefully curated lexica over larger, noisier ones, especially with larger models; and (4) we compare the efficacy of multilingual lexicon data versus human-translated parallel data. Finally, we open-source GATITOS (available at https://github.com/google-research/url-nlp/tree/main/gatitos), a new multilingual lexicon for 26 low-resource languages, which had the highest performance among lexica in our experiments.

arxiv情報

著者 Alex Jones,Isaac Caswell,Ishank Saxena,Orhan Firat
発行日 2023-03-27 14:54:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG, I.2.7 パーマリンク