Machine Translation Advancements of Low-Resource Indian Languages by Transfer Learning

要約

このペーパーでは、Huawei Translation Center (HW-TSC) による WMT24 インド言語機械翻訳 (MT) 共有タスクへの提出について紹介します。
リソースの少ないインド言語向けに信頼性の高い機械翻訳システムを開発するために、言語スクリプトの特性とインド言語の既存のオープンソース モデルから利用できるサポートを考慮して、2 つの異なる知識伝達戦略を採用しました。
アッサム語 (as) とマニプリ語 (mn) については、英語とこれらの言語間の双方向翻訳を可能にするために、既存の IndicTrans2 オープンソース モデルを微調整しました。
カシ語 (kh) とミゾ語 (mz) については、これら 4 つの言語ペアからのバイリンガル データと、追加の約 8kw の英語とベンガル語のバイリンガル データを使用して、ベースラインとして多言語モデルをトレーニングしました。これらのデータはすべて、特定の言語特徴を共有しています。
その後、英語とカーシ語、および英語とミゾの間の双方向翻訳を実現するための微調整が行われました。
転移学習の実験では、それぞれのテスト セットで en-as で 23.5 BLEU、en-mn で 31.8 BLEU、as-en で 36.2 BLEU、mn-en で 47.9 BLEU という素晴らしい結果が得られました。
同様に、多言語モデル転移学習実験では、それぞれのテスト セットで en-kh で 19.7 BLEU、en-mz で 32.8 BLEU、kh-en で 16.1 BLEU、mz-en で 33.9 BLEU を達成し、素晴らしい結果をもたらしました。
これらの結果は、低リソース言語に対する転移学習技術の有効性を強調するだけでなく、低リソース言語の機械翻訳機能の進歩にも貢献します。

要約(オリジナル)

This paper introduces the submission by Huawei Translation Center (HW-TSC) to the WMT24 Indian Languages Machine Translation (MT) Shared Task. To develop a reliable machine translation system for low-resource Indian languages, we employed two distinct knowledge transfer strategies, taking into account the characteristics of the language scripts and the support available from existing open-source models for Indian languages. For Assamese(as) and Manipuri(mn), we fine-tuned the existing IndicTrans2 open-source model to enable bidirectional translation between English and these languages. For Khasi (kh) and Mizo (mz), We trained a multilingual model as a baseline using bilingual data from these four language pairs, along with an additional about 8kw English-Bengali bilingual data, all of which share certain linguistic features. This was followed by fine-tuning to achieve bidirectional translation between English and Khasi, as well as English and Mizo. Our transfer learning experiments produced impressive results: 23.5 BLEU for en-as, 31.8 BLEU for en-mn, 36.2 BLEU for as-en, and 47.9 BLEU for mn-en on their respective test sets. Similarly, the multilingual model transfer learning experiments yielded impressive outcomes, achieving 19.7 BLEU for en-kh, 32.8 BLEU for en-mz, 16.1 BLEU for kh-en, and 33.9 BLEU for mz-en on their respective test sets. These results not only highlight the effectiveness of transfer learning techniques for low-resource languages but also contribute to advancing machine translation capabilities for low-resource Indian languages.

arxiv情報

著者 Bin Wei,Jiawei Zhen,Zongyao Li,Zhanglin Wu,Daimeng Wei,Jiaxin Guo,Zhiqiang Rao,Shaojun Li,Yuanchang Luo,Hengchao Shang,Jinlong Yang,Yuhao Xie,Hao Yang
発行日 2024-09-24 08:53:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク