CroissantLLM: A Truly Bilingual French-English Language Model

要約

3T英語とフランスのトークンのセットで前処理された1.3B言語モデルであるCroissantlllmを紹介し、研究と産業コミュニティに、消費者グレードのローカルハードウェアを迅速に実行する高性能で完全にオープンソースのバイリンガルモデルをもたらします。
そのために、1:1の英語とフランスの事前削除データ、カスタムトークネザー、バイリンガルの微調整データセットを使用して、本質的にバイリンガルモデルをトレーニングするアプローチを開拓します。
トレーニングデータセットをリリースします。特に、手動でキュレーションされた高品質でさまざまなデータソースを備えたフランスの分割が含まれています。
英語以外のパフォーマンスを評価するために、私たちは、フランス語のモデルパフォーマンスのさまざまな直交側面をカバーする、分類と生成のタスクの配列で構成される新しいベンチマークであるフレンチベンチを作成します。
さらに、透明性に根ざし、さらに大規模な言語モデルの研究を促進するために、さまざまなモデルサイズ、トレーニングデータ分布、トレーニングステップ、微調整されたチャットモデル、強力な翻訳モデルにわたってコードベースと数十のチェックポイントをリリースします。
FMTIフレームワークを通じてモデルを評価し、透明性基準の81%を検証します。これは、ほとんどのオープンイニシアチブのスコアをはるかに超えています。
この作品は、NLPの風景を豊かにし、言語モデルの多言語性の理解を強化するために、以前の英語中心の仕事から脱却します。

要約(オリジナル)

We introduce CroissantLLM, a 1.3B language model pretrained on a set of 3T English and French tokens, to bring to the research and industrial community a high-performance, fully open-sourced bilingual model that runs swiftly on consumer-grade local hardware. To that end, we pioneer the approach of training an intrinsically bilingual model with a 1:1 English-to-French pretraining data ratio, a custom tokenizer, and bilingual finetuning datasets. We release the training dataset, notably containing a French split with manually curated, high-quality, and varied data sources. To assess performance outside of English, we craft a novel benchmark, FrenchBench, consisting of an array of classification and generation tasks, covering various orthogonal aspects of model performance in the French Language. Additionally, rooted in transparency and to foster further Large Language Model research, we release codebases, and dozens of checkpoints across various model sizes, training data distributions, and training steps, as well as fine-tuned Chat models, and strong translation models. We evaluate our model through the FMTI framework, and validate 81 % of the transparency criteria, far beyond the scores of even most open initiatives. This work enriches the NLP landscape, breaking away from previous English-centric work in order to strengthen our understanding of multilinguality in language models.

arxiv情報

著者 Manuel Faysse,Patrick Fernandes,Nuno M. Guerreiro,António Loison,Duarte M. Alves,Caio Corro,Nicolas Boizard,João Alves,Ricardo Rei,Pedro H. Martins,Antoni Bigata Casademunt,François Yvon,André F. T. Martins,Gautier Viaud,Céline Hudelot,Pierre Colombo
発行日 2025-04-09 09:45:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク