Beyond Vanilla Fine-Tuning: Leveraging Multistage, Multilingual, and Domain-Specific Methods for Low-Resource Machine Translation

要約

微調整多言語シーケンスからシーケンス大型言語モデル(MSLLMS)は、低リソース言語(LRL)の神経機械翻訳(NMT)システムの開発において有望を示しています。
ただし、従来のシングルステージの微調整方法は、トレーニングデータが非常に限られている非常に低リソースのNMT設定で苦労しています。
このペーパーは、これらの挑戦的なシナリオでMSLLMを適応させるための2つのアプローチを提案することにより、人工知能に貢献します:(1)継続的なトレーニング(CPT)。MSLLMは、LRLの過小評価を補うためにドメイン固有の単一言語データでさらに訓練されています。
ドメイン外の並列データは、さまざまなドメインとタスクにわたる翻訳機能を強化します。
エンジニアリングのアプリケーションとして、これらの方法は、ドメイン固有の非常に低リソース設定(100,000未満のサンプルを含むデータセット)で、シンハラ、タミル語、および英語(6つの言語ペア)のNMTシステムに実装されています。
私たちの実験では、これらのアプローチが、すべての翻訳方向にわたる標準の単一段階の微調整ベースラインと比較して、平均+1.47バイリンガル評価アンテナ(BLE)スコアによって翻訳性能を高めることが明らかになりました。
さらに、マルチモデルアンサンブルは、追加のBLEUスコアによってパフォーマンスをさらに向上させます。

要約(オリジナル)

Fine-tuning multilingual sequence-to-sequence large language models (msLLMs) has shown promise in developing neural machine translation (NMT) systems for low-resource languages (LRLs). However, conventional single-stage fine-tuning methods struggle in extremely low-resource NMT settings, where training data is very limited. This paper contributes to artificial intelligence by proposing two approaches for adapting msLLMs in these challenging scenarios: (1) continual pre-training (CPT), where the msLLM is further trained with domain-specific monolingual data to compensate for the under-representation of LRLs, and (2) intermediate task transfer learning (ITTL), a method that fine-tunes the msLLM with both in-domain and out-of-domain parallel data to enhance its translation capabilities across various domains and tasks. As an application in engineering, these methods are implemented in NMT systems for Sinhala, Tamil, and English (six language pairs) in domain-specific, extremely low-resource settings (datasets containing fewer than 100,000 samples). Our experiments reveal that these approaches enhance translation performance by an average of +1.47 bilingual evaluation understudy (BLEU) score compared to the standard single-stage fine-tuning baseline across all translation directions. Additionally, a multi-model ensemble further improves performance by an additional BLEU score.

arxiv情報

著者 Sarubi Thillainathan,Songchen Yuan,En-Shiun Annie Lee,Sanath Jayasena,Surangika Ranathunga
発行日 2025-03-28 16:30:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク