要約
タイトル: レキシカル類似性を利用した極度の低リソース言語のゼロショット機械翻訳の実現
要約:
– 極度の低リソース言語(LRL)から英語への機械翻訳の課題を、近縁な高リソース言語(HRL)からのクロスリンガル転送を用いて解決する。
– これらの言語の多くは平行コーパスが利用できず、単言語コーパスも限られており、事前に学習されたシーケンス・トゥ・シーケンスモデルの表現が存在しない。これらは、マルチリンガルモデルの共有埋め込み空間からのクロスリンガル転送の利点を制限する要因となる。
– しかし、多くの極度のLRLは、関連するHRLと高いレキシカル類似性を持っている。
– 私たちは、語彙を学習する前に、HRLのトレーニングデータに文字と文字スパンのノイズを注入することで、この特性を利用します。これは正則化子として機能し、HRLとLRL間の語彙の発散に対してモデルをより頑健にし、クロスリンガル転送をより容易にします。
– 複数の言語ファミリーからの関連性が高いHRLとLRLペアを用いて、私たちの方法は、従来のMTベースラインおよびクロスリンガル転送を解決するために以前に提案されたアプローチよりも明らかに優れていることを示す。また、提案された文字スパンノイズ注入は、ユニグラム・キャラクターノイズ注入よりも優れた性能を発揮することを示す。
要約(オリジナル)
We address the task of machine translation from an extremely low-resource language (LRL) to English using cross-lingual transfer from a closely related high-resource language (HRL). For many of these languages, no parallel corpora are available, even monolingual corpora are limited and representations in pre-trained sequence-to-sequence models are absent. These factors limit the benefits of cross-lingual transfer from shared embedding spaces in multilingual models. However, many extremely LRLs have a high level of lexical similarity with related HRLs. We utilize this property by injecting character and character-span noise into the training data of the HRL prior to learning the vocabulary. This serves as a regularizer which makes the model more robust to lexical divergences between the HRL and LRL and better facilitates cross-lingual transfer. On closely related HRL and LRL pairs from multiple language families, we observe that our method significantly outperforms the baseline MT as well as approaches proposed previously to address cross-lingual transfer between closely related languages. We also show that the proposed character-span noise injection performs better than the unigram-character noise injection.
arxiv情報
著者 | Kaushal Kumar Maurya,Rahul Kejriwal,Maunendra Sankar Desarkar,Anoop Kunchukuttan |
発行日 | 2023-05-09 07:23:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI