To Translate or Not to Translate: A Systematic Investigation of Translation-Based Cross-Lingual Transfer to Low-Resource Languages

要約

完璧な機械翻訳 (MT) は、多言語言語モデル (mLM) による言語間転送 (XLT) を不要にします。
一方では、mLM を使用した XLT の改善に関する大量の作業と、他方では大規模な多言語 MT の最近の進歩を考慮して、この作業では、既存の XLT を体系的に評価し、新しい翻訳ベースの XLT アプローチを提案します。
リソースの少ない言語。
すべての翻訳ベースのアプローチが、ソース言語のトレーニング データの往復翻訳と推論時のターゲット言語のテスト インスタンスの翻訳を組み合わせた mLM によるゼロショット XLT よりも劇的に優れていることを示します。
最も効果的な。
次に、他の高リソース言語への信頼できる翻訳をトレーニング データに追加することで、さらなる経験的利益が得られることを示します。
さらに、MT システムでサポートされていない言語に対しても、効果的な翻訳ベースの XLT 戦略を提案します。
最後に、MT で取得したターゲット言語の検証データに基づく XLT のモデル選択が、ソース言語データに基づくモデル選択よりも優れていることを示します。
私たちは、私たちの発見により、XLT 研究において、より堅牢な翻訳ベースのベースラインをより広範に含めることが正当化されると信じています。

要約(オリジナル)

Perfect machine translation (MT) would render cross-lingual transfer (XLT) by means of multilingual language models (mLMs) superfluous. Given, on the one hand, the large body of work on improving XLT with mLMs and, on the other hand, recent advances in massively multilingual MT, in this work, we systematically evaluate existing and propose new translation-based XLT approaches for transfer to low-resource languages. We show that all translation-based approaches dramatically outperform zero-shot XLT with mLMs — with the combination of round-trip translation of the source-language training data and the translation of the target-language test instances at inference — being generally the most effective. We next show that one can obtain further empirical gains by adding reliable translations to other high-resource languages to the training data. Moreover, we propose an effective translation-based XLT strategy even for languages not supported by the MT system. Finally, we show that model selection for XLT based on target-language validation data obtained with MT outperforms model selection based on the source-language data. We believe our findings warrant a broader inclusion of more robust translation-based baselines in XLT research.

arxiv情報

著者 Benedikt Ebing,Goran Glavaš
発行日 2024-07-10 11:34:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク