EuroLLM: Multilingual Language Models for Europe

要約

無差別 LLM の品質は大幅に向上していますが、依然として主に英語に重点を置いています。
このペーパーでは、すべての欧州連合公式言語といくつかの追加の関連言語のテキストを理解および生成できるオープンウェイト多言語 LLM スイートの開発を目的とした EuroLLM プロジェクトを紹介します。
データの収集とフィルタリングのプロセス、スケーリング法の開発、多言語トークナイザーの作成、データ ミックスとモデリング構成について詳しく説明し、これまでの進捗状況を概説します。
さらに、初期モデル EuroLLM-1.7B および EuroLLM-1.7B-Instruct をリリースし、多言語の一般ベンチマークと機械翻訳におけるパフォーマンスをレポートします。

要約(オリジナル)

The quality of open-weight LLMs has seen significant improvement, yet they remain predominantly focused on English. In this paper, we introduce the EuroLLM project, aimed at developing a suite of open-weight multilingual LLMs capable of understanding and generating text in all official European Union languages, as well as several additional relevant languages. We outline the progress made to date, detailing our data collection and filtering process, the development of scaling laws, the creation of our multilingual tokenizer, and the data mix and modeling configurations. Additionally, we release our initial models: EuroLLM-1.7B and EuroLLM-1.7B-Instruct and report their performance on multilingual general benchmarks and machine translation.

arxiv情報

著者 Pedro Henrique Martins,Patrick Fernandes,João Alves,Nuno M. Guerreiro,Ricardo Rei,Duarte M. Alves,José Pombal,Amin Farajian,Manuel Faysse,Mateusz Klimaszewski,Pierre Colombo,Barry Haddow,José G. C. de Souza,Alexandra Birch,André F. T. Martins
発行日 2024-09-24 16:51:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク