要約
この作業では、3つの異なるサイズのオープンソースデコーダーのみの大型言語モデルのスイートであるSalamandraを紹介します:2、7、および400億パラメーター。
モデルは、35のヨーロッパの言語とコードのテキストを含む多言語の非常に多言語データでゼロからトレーニングされました。
当社の慎重にキュレーションされたコーパスは、多種多様なソースから編集されたオープンアクセスデータからのみ作られています。
ベースモデルに加えて、パブリックドメイン命令データで微調整された補足チェックポイントもチャットアプリケーション用にリリースされています。
さらに、マルチモダリティに関する予備的な実験も共有します。これは、サラマンドラファミリーの潜在的なアプリケーションを紹介するための概念実証として機能します。
多言語のベンチマークに関する当社の広範な評価は、サラマンドラには強力な機能があり、同様のサイズのオープンソースモデルと比較すると競争力のあるパフォーマンスを達成することが明らかになりました。
標準のダウンストリームタスクとバイアスと安全性に関連する重要な側面の両方で包括的な評価結果を提供します。この技術レポートを使用すると、設計の選択肢、データキュレーション戦略、評価方法論の背後にあるすべての詳細を共有することにより、オープンサイエンスを促進する予定です。
それに加えて、トレーニングと評価スクリプトを公開できるようにすることにより、通常の練習から逸脱しています。
将来の研究を促進し、商業利用を促進し、それによって大規模な言語モデルのオープンソースのエコシステムに貢献するために、容認できるApache 2.0ライセンスの下ですべてのモデルをリリースします。
要約(オリジナル)
This work introduces Salamandra, a suite of open-source decoder-only large language models available in three different sizes: 2, 7, and 40 billion parameters. The models were trained from scratch on highly multilingual data that comprises text in 35 European languages and code. Our carefully curated corpus is made exclusively from open-access data compiled from a wide variety of sources. Along with the base models, supplementary checkpoints that were fine-tuned on public-domain instruction data are also released for chat applications. Additionally, we also share our preliminary experiments on multimodality, which serve as proof-of-concept to showcase potential applications for the Salamandra family. Our extensive evaluations on multilingual benchmarks reveal that Salamandra has strong capabilities, achieving competitive performance when compared to similarly sized open-source models. We provide comprehensive evaluation results both on standard downstream tasks as well as key aspects related to bias and safety.With this technical report, we intend to promote open science by sharing all the details behind our design choices, data curation strategy and evaluation methodology. In addition to that, we deviate from the usual practice by making our training and evaluation scripts publicly accessible. We release all models under a permissive Apache 2.0 license in order to foster future research and facilitate commercial use, thereby contributing to the open-source ecosystem of large language models.
arxiv情報
著者 | Aitor Gonzalez-Agirre,Marc Pàmies,Joan Llop,Irene Baucells,Severino Da Dalt,Daniel Tamayo,José Javier Saiz,Ferran Espuña,Jaume Prats,Javier Aula-Blasco,Mario Mina,Adrián Rubio,Alexander Shvets,Anna Sallés,Iñaki Lacunza,Iñigo Pikabea,Jorge Palomar,Júlia Falcão,Lucía Tormo,Luis Vasquez-Reina,Montserrat Marimon,Valle Ruíz-Fernández,Marta Villegas |
発行日 | 2025-02-12 15:26:08+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google