From Priest to Doctor: Domain Adaptation for Low-Resource Neural Machine Translation

要約

世界の言語の多くは、ドメイン固有のモデルは言うまでもなく、高性能の一般的な神経機械翻訳(NMT)モデルをトレーニングするためのデータが不十分であり、多くの場合、利用可能な唯一の並列データは少量の宗教テキストです。
したがって、ドメイン適応(DA)は、現代のNMTが直面する重要な問題であり、これまでのところ、低リソース言語では不足しています。
この論文では、現実的な設定で低リソースNMTとDAの両方からの一連の方法を評価します。この設定では、高度なリソースと低リソースの言語のみをアクセスすることを目指しています。a)並列聖書データ
、b)バイリンガル辞書、およびc)高リソース言語の単一言語ターゲットドメインコーパス。
私たちの結果は、テストされた方法の有効性が異なることを示しており、最も単純な方法であるDALIが最も効果的であることを示しています。
私たちは、DALIの小さな人間の評価でフォローアップします。これは、低リソースNMTのDAを達成する方法をより慎重に調査する必要があることを示しています。

要約(オリジナル)

Many of the world’s languages have insufficient data to train high-performing general neural machine translation (NMT) models, let alone domain-specific models, and often the only available parallel data are small amounts of religious texts. Hence, domain adaptation (DA) is a crucial issue faced by contemporary NMT and has, so far, been underexplored for low-resource languages. In this paper, we evaluate a set of methods from both low-resource NMT and DA in a realistic setting, in which we aim to translate between a high-resource and a low-resource language with access to only: a) parallel Bible data, b) a bilingual dictionary, and c) a monolingual target-domain corpus in the high-resource language. Our results show that the effectiveness of the tested methods varies, with the simplest one, DALI, being most effective. We follow up with a small human evaluation of DALI, which shows that there is still a need for more careful investigation of how to accomplish DA for low-resource NMT.

arxiv情報

著者 Ali Marashian,Enora Rice,Luke Gessler,Alexis Palmer,Katharina von der Wense
発行日 2025-02-21 16:42:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク