Tower: An Open Multilingual Large Language Model for Translation-Related Tasks

要約

汎用大規模言語モデル (LLM) は、翻訳分野内の複数のタスクに習熟していることを示しますが、オープン LLM に基づくアプローチは、単一のタスクに特化した場合にのみ競争力を発揮します。
この論文では、翻訳ワークフローに存在する複数のタスクに合わせて LLM を調整するためのレシピを提案します。
単言語データと並列データの多言語混合に対して継続的な事前トレーニングを実行して TowerBase を作成し、続いて翻訳プロセスに関連する指示を微調整して TowerInstruct を作成します。
私たちの最終モデルは、翻訳ワークフローに関連するいくつかのタスクにおいてオープンな代替モデルを上回り、汎用のクローズド LLM と競合します。
将来の研究を促進するために、私たちは Tower モデル、専門化データセット、翻訳エコシステムに焦点を当てた LLM の評価フレームワーク、および私たちのものを含むモデル世代のコレクションをベンチマークにリリースします。

要約(オリジナル)

While general-purpose large language models (LLMs) demonstrate proficiency on multiple tasks within the domain of translation, approaches based on open LLMs are competitive only when specializing on a single task. In this paper, we propose a recipe for tailoring LLMs to multiple tasks present in translation workflows. We perform continued pretraining on a multilingual mixture of monolingual and parallel data, creating TowerBase, followed by finetuning on instructions relevant for translation processes, creating TowerInstruct. Our final model surpasses open alternatives on several tasks relevant to translation workflows and is competitive with general-purpose closed LLMs. To facilitate future research, we release the Tower models, our specialization dataset, an evaluation framework for LLMs focusing on the translation ecosystem, and a collection of model generations, including ours, on our benchmark.

arxiv情報

著者 Duarte M. Alves,José Pombal,Nuno M. Guerreiro,Pedro H. Martins,João Alves,Amin Farajian,Ben Peters,Ricardo Rei,Patrick Fernandes,Sweta Agrawal,Pierre Colombo,José G. C. de Souza,André F. T. Martins
発行日 2024-02-27 18:09:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク