Multilingual Machine Translation with Open Large Language Models at Practical Scale: An Empirical Study

要約

大規模言語モデル(LLM)は継続的に多言語能力を向上させており、小規模なオープンソースモデルでさえ、急速な性能向上を示している。本稿では、100億未満のパラメータを持つオープンなLLMが、多言語機械翻訳(MT)タスクを処理できる能力を系統的に探索する。6つの一般的なLLMについて包括的な評価を行い、Gemma2-9Bのようなモデルが印象的な多言語翻訳能力を示すことを発見した。次に、機械翻訳の性能をさらに向上させるために、継続的な事前学習段階で並列-第一モノリンガル-第二(PFMS)データ混合戦略を導入し、28言語にわたってトップクラスの多言語翻訳性能を達成した9BモデルであるGemmaX2-28を紹介する。具体的には、GemmaX2-28は、TowerInstructやXALMAのような最先端の(SOTA)モデルを常に凌駕し、Google翻訳やGPT-4-turboと競合する性能を達成しています。

要約(オリジナル)

Large language models (LLMs) have shown continuously improving multilingual capabilities, and even small-scale open-source models have demonstrated rapid performance enhancement. In this paper, we systematically explore the abilities of open LLMs with less than ten billion parameters to handle multilingual machine translation (MT) tasks. We conduct comprehensive evaluations on six popular LLMs and find that models like Gemma2-9B exhibit impressive multilingual translation capabilities. We then introduce the Parallel-First Monolingual-Second (PFMS) data mixing strategy in the continual pretraining stage to further enhance the MT performance and present GemmaX2-28, a 9B model achieving top-tier multilingual translation performance across 28 languages. Specifically, GemmaX2-28 consistently outperforms the state-of-the-art (SOTA) models such as TowerInstruct and XALMA and achieves competitive performance with Google Translate and GPT-4-turbo.

arxiv情報

著者 Menglong Cui,Pengzhi Gao,Wei Liu,Jian Luan,BinWang
発行日 2025-02-04 16:57:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL パーマリンク