YuLan-Mini: An Open Data-efficient Language Model

要約

大規模言語モデル (LLM) の効果的な事前トレーニングは、膨大なリソースの需要と関連する技術プロセスの複雑さのため、困難でした。
このペーパーでは、同様のパラメータ スケールのモデルの中でトップレベルのパフォーマンスを達成する、2.42B パラメータを備えた高機能ベース モデルである YuLan-Mini に関する詳細な技術レポートを紹介します。
当社の事前トレーニング アプローチは、3 つの主要な技術的貢献を通じてトレーニング効果を高めることに焦点を当てています。データ クリーニングとデータ スケジュール戦略を組み合わせた精巧なデータ パイプライン、トレーニングの不安定性を軽減する堅牢な最適化手法、ターゲットを絞ったデータ選択と長いコンテキストを組み込んだ効果的なアニーリング アプローチです。
トレーニング。
注目すべきことに、1.08T トークンでトレーニングされた YuLan-Mini は、大幅に多くのデータを必要とする業界をリードするモデルに匹敵するパフォーマンスを達成します。
再現を容易にするために、各トレーニング フェーズのデータ​​構成の完全な詳細を公開します。
プロジェクトの詳細には、https://github.com/RUC-GSAI/YuLan-Mini のリンクからアクセスできます。

要約(オリジナル)

Effective pre-training of large language models (LLMs) has been challenging due to the immense resource demands and the complexity of the technical processes involved. This paper presents a detailed technical report on YuLan-Mini, a highly capable base model with 2.42B parameters that achieves top-tier performance among models of similar parameter scale. Our pre-training approach focuses on enhancing training efficacy through three key technical contributions: an elaborate data pipeline combines data cleaning with data schedule strategies, a robust optimization method to mitigate training instability, and an effective annealing approach that incorporates targeted data selection and long context training. Remarkably, YuLan-Mini, trained on 1.08T tokens, achieves performance comparable to industry-leading models that require significantly more data. To facilitate reproduction, we release the full details of the data composition for each training phase. Project details can be accessed at the following link: https://github.com/RUC-GSAI/YuLan-Mini.

arxiv情報

著者 Yiwen Hu,Huatong Song,Jia Deng,Jiapeng Wang,Jie Chen,Kun Zhou,Yutao Zhu,Jinhao Jiang,Zican Dong,Wayne Xin Zhao,Ji-Rong Wen
発行日 2024-12-24 16:07:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク