要約
このレポートは、24の公式欧州連合言語すべてと11の追加言語をカバーすることにより、欧州市民のニーズをサポートするためにゼロから訓練された大規模な言語モデルであるEurollm-9Bを提示します。
Eurollmは、既存のオープンな大手言語モデルで過小評価され、サービスが不十分であるヨーロッパの言語の問題に対処しています。
トークン剤の設計、建築仕様、データフィルタリング、トレーニング手順など、Eurollm-9Bの開発の包括的な概要を提供します。
AIベースの多言語フィルターであるEurofilterの作成や、ヨーロッパ言語の言語カバレッジを強化するポストトレーニング用の新しい合成データセットであるEuroblocks-Syntheticの設計など、トレーニング前のデータ収集とフィルタリングパイプラインについて説明します。
評価の結果は、多言語のベンチマークと機械翻訳タスクでのEurollm-9Bの競争力のあるパフォーマンスを示しており、その規模の主要なヨーロッパ製LLMとして確立しています。
オープンな研究と採用をサポートするために、ベースおよび命令チューニングモデル、ユーロフィルター分類器、合成後のトレーニングデータセットなど、この作業のすべての主要なコンポーネントをリリースします。
要約(オリジナル)
This report presents EuroLLM-9B, a large language model trained from scratch to support the needs of European citizens by covering all 24 official European Union languages and 11 additional languages. EuroLLM addresses the issue of European languages being underrepresented and underserved in existing open large language models. We provide a comprehensive overview of EuroLLM-9B’s development, including tokenizer design, architectural specifications, data filtering, and training procedures. We describe the pre-training data collection and filtering pipeline, including the creation of EuroFilter, an AI-based multilingual filter, as well as the design of EuroBlocks-Synthetic, a novel synthetic dataset for post-training that enhances language coverage for European languages. Evaluation results demonstrate EuroLLM-9B’s competitive performance on multilingual benchmarks and machine translation tasks, establishing it as the leading open European-made LLM of its size. To support open research and adoption, we release all major components of this work, including the base and instruction-tuned models, the EuroFilter classifier, and the synthetic post-training dataset.
arxiv情報
著者 | Pedro Henrique Martins,João Alves,Patrick Fernandes,Nuno M. Guerreiro,Ricardo Rei,Amin Farajian,Mateusz Klimaszewski,Duarte M. Alves,José Pombal,Manuel Faysse,Pierre Colombo,François Yvon,Barry Haddow,José G. C. de Souza,Alexandra Birch,André F. T. Martins |
発行日 | 2025-06-04 15:43:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google