要約
クロワッサンLLMは、3Tの英語とフランス語のトークンで事前学習された1.3Bの言語モデルである。そのために、英語とフランス語の事前学習データの比率を1:1にし、カスタムのトークナイザーとバイリンガルの微調整データセットを用いて、本質的にバイリンガルのモデルを学習するアプローチを開拓します。特に、手作業でキュレーションされた、高品質で多様なデータソースによるフランス語分割を含むトレーニングデータセットを公開しています。英語以外の言語での性能を評価するために、フランス語におけるモデル性能の様々な直交する側面をカバーする、分類と生成タスクの配列からなる新しいベンチマーク、FrenchBenchを作成します。さらに、透明性を確保し、大規模言語モデルの研究を促進するために、様々なモデルサイズ、学習データ分布、学習ステップ、微調整されたチャットモデル、強力な翻訳モデルなどのコードベースや数十のチェックポイントを公開しています。FMTIフレームワークを通してモデルを評価し、透明性基準の81%を検証しました。この研究は、言語モデルにおける多言語性の理解を強化するために、これまでの英語中心の研究から脱却し、NLPの展望を豊かにするものである。
要約(オリジナル)
We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.
arxiv情報
著者 | Manuel Faysse,Patrick Fernandes,Nuno M. Guerreiro,António Loison,Duarte M. Alves,Caio Corro,Nicolas Boizard,João Alves,Ricardo Rei,Pedro H. Martins,Antoni Bigata Casademunt,François Yvon,André F. T. Martins,Gautier Viaud,Céline Hudelot,Pierre Colombo |
発行日 | 2024-02-02 17:43:41+00:00 |
arxivサイト | arxiv_id(pdf) |