Steel-LLM:From Scratch to Open Source — A Personal Journey in Building a Chinese-Centric LLM

要約

Steel-LLMは、計算リソースが限られているにもかかわらず、高品質のオープンソースモデルを作成することを目的として、ゼロから開発された中国中心の言語モデルです。
2024年3月に開始されたこのプロジェクトは、大規模なデータセットで1億パラメーターモデルをトレーニングし、透明性とコミュニティの他の人を支援する実用的な洞察の共有を優先することを目的としています。
トレーニングプロセスは主に中国のデータに焦点を当てており、英語のデータのごく一部が含まれており、モデル構築の旅のより詳細かつ実用的なアカウントを提供することにより、既存のオープンソースLLMのギャップに対処しました。
Steel-LLMは、CEVALやCMMLUなどのベンチマークで競争力のあるパフォーマンスを実証しており、大規模な機関からの初期モデルよりも優れています。
このペーパーでは、データ収集、モデル設計、トレーニング方法論、途中で遭遇した課題など、プロジェクトの重要な貢献の包括的な要約を提供し、独自のLLMを開発しようとしている研究者や実践者に貴重なリソースを提供します。
モデルチェックポイントとトレーニングスクリプトは、https://github.com/zhanshijinwat/steel-llmで入手できます。

要約(オリジナル)

Steel-LLM is a Chinese-centric language model developed from scratch with the goal of creating a high-quality, open-source model despite limited computational resources. Launched in March 2024, the project aimed to train a 1-billion-parameter model on a large-scale dataset, prioritizing transparency and the sharing of practical insights to assist others in the community. The training process primarily focused on Chinese data, with a small proportion of English data included, addressing gaps in existing open-source LLMs by providing a more detailed and practical account of the model-building journey. Steel-LLM has demonstrated competitive performance on benchmarks such as CEVAL and CMMLU, outperforming early models from larger institutions. This paper provides a comprehensive summary of the project’s key contributions, including data collection, model design, training methodologies, and the challenges encountered along the way, offering a valuable resource for researchers and practitioners looking to develop their own LLMs. The model checkpoints and training script are available at https://github.com/zhanshijinwat/Steel-LLM.

arxiv情報

著者 Qingshui Gu,Shu Li,Tianyu Zheng,Zhaoxiang Zhang
発行日 2025-02-10 16:31:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク