要約
大規模な言語モデル(LLM)は、多言語機能を継続的に改善していることを示しており、小規模なオープンソースモデルでさえ、迅速なパフォーマンスの向上を実証しています。
この論文では、多言語の機械翻訳(MT)タスクを処理するために、100億未満のパラメーターを持つオープンLLMの能力を体系的に調査します。
6つの一般的なLLMSで包括的な評価を実施し、Gemma2-9Bのようなモデルが印象的な多言語翻訳機能を示していることがわかります。
次に、MTパフォーマンスをさらに強化し、28の言語でトップティア多言語翻訳パフォーマンスを達成する9BモデルであるGemmax2-28をさらに強化するために、継続的な前脱段階で並行した単一言語秒(PFMS)データミキシング戦略を導入します。
具体的には、Gemmax2-28は、TowerInstructやXalmaなどの最先端(SOTA)モデルを一貫して上回り、Google TranslateやGPT-4-Turboで競争力のあるパフォーマンスを達成します。
要約(オリジナル)
Large language models (LLMs) have shown continuously improving multilingual capabilities, and even small-scale open-source models have demonstrated rapid performance enhancement. In this paper, we systematically explore the abilities of open LLMs with less than ten billion parameters to handle multilingual machine translation (MT) tasks. We conduct comprehensive evaluations on six popular LLMs and find that models like Gemma2-9B exhibit impressive multilingual translation capabilities. We then introduce the Parallel-First Monolingual-Second (PFMS) data mixing strategy in the continual pretraining stage to further enhance the MT performance and present GemmaX2-28, a 9B model achieving top-tier multilingual translation performance across 28 languages. Specifically, GemmaX2-28 consistently outperforms the state-of-the-art (SOTA) models such as TowerInstruct and XALMA and achieves competitive performance with Google Translate and GPT-4-turbo.
arxiv情報
著者 | Menglong Cui,Pengzhi Gao,Wei Liu,Jian Luan,Bin Wang |
発行日 | 2025-02-24 17:24:04+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google