要約
この作業では、オープンソースのオートレグレッシブデコーダーのみの大型言語モデル(LLMS)のドメイン固有の翻訳パフォーマンスを、タスク指向の機械翻訳(MT)モデルと比較します。
私たちの実験は、医療ドメインに焦点を当て、さまざまなリソースの可用性を備えた4つの言語ペアをカバーしています:英語からフランス語、英語からポルトガル、英語からスワヒリ語、スワヒリ語から英語です。
最近の進歩にもかかわらず、LLMは、NLLB-200などの多言語エンコーダーデコーダーMTモデルと比較して、特殊な翻訳品質に明確なギャップを示しています。
私たちの研究では、4つの言語の指示のうち3つで、NLLB-200 3.3Bは、医療翻訳の8Bパラメーターのサイズ範囲ですべてのLLMを上回ります。
MistralやLlamaなどの微調整LLMは医療翻訳でのパフォーマンスを改善しますが、これらのモデルは微調整されたNLLB-2003.3Bモデルと比較してまだ不足しています。
私たちの調査結果は、特に中型および低リソースの設定で、高品質のドメイン固有の翻訳を実現するための専門MTモデルの継続的な必要性を強調しています。
LLMが大きいと8Bバリエーションよりも優れているため、これにより、事前トレーニングドメイン固有の中型LMSが促進され、特殊な翻訳タスクの品質と効率が向上します。
要約(オリジナル)
In this work, we compare the domain-specific translation performance of open-source autoregressive decoder-only large language models (LLMs) with task-oriented machine translation (MT) models. Our experiments focus on the medical domain and cover four language pairs with varied resource availability: English-to-French, English-to-Portuguese, English-to-Swahili, and Swahili-to-English. Despite recent advancements, LLMs exhibit a clear gap in specialized translation quality compared to multilingual encoder-decoder MT models such as NLLB-200. In three out of four language directions in our study, NLLB-200 3.3B outperforms all LLMs in the size range of 8B parameters in medical translation. While fine-tuning LLMs such as Mistral and Llama improves their performance at medical translation, these models still fall short compared to fine-tuned NLLB-200 3.3B models. Our findings highlight the ongoing need for specialized MT models to achieve higher-quality domain-specific translation, especially in medium-resource and low-resource settings. As larger LLMs outperform their 8B variants, this also encourages pre-training domain-specific medium-sized LMs to improve quality and efficiency in specialized translation tasks.
arxiv情報
| 著者 | Aman Kassahun Wassie,Mahdi Molaei,Yasmin Moslem | 
| 発行日 | 2025-02-25 18:59:04+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
