要約
大規模言語モデル (LLM) は、言語の理解と生成における高度な機能を実証し、幅広いアプリケーションを促進します。
しかし、最小限の試行錯誤コストと計算リソースで 500 億パラメータを超えて LLM を効率的に拡張するための詳細なオープンソース手法が著しく不足しています。
このレポートでは、安定した効率的な事前トレーニング パラダイムと強化された事実判断機能を特徴とする 52B オープンソースの多言語大規模言語モデルである Tele-FLM (別名 FLM-2) を紹介します。
Tele-FLM は、テキスト コーパスに関する BPB によって測定された、優れた多言語言語モデリング能力を実証します。
さらに、英語と中国語の両方の基礎モデルの評価において、Llama2-70B や DeepSeek-67B など、大規模な事前トレーニング FLOP を含む強力なオープンソース モデルに匹敵します。
モデルの重みに加えて、コアとなる設計、エンジニアリングの実践、トレーニングの詳細も共有しており、学術界と産業界の両方に利益をもたらすことが期待されています。
要約(オリジナル)
Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.
arxiv情報
著者 | Xiang Li,Yiqun Yao,Xin Jiang,Xuezhi Fang,Chao Wang,Xinzhang Liu,Zihan Wang,Yu Zhao,Xin Wang,Yuyao Huang,Shuangyong Song,Yongxiang Li,Zheng Zhang,Bo Zhao,Aixin Sun,Yequan Wang,Zhongjiang He,Zhongyuan Wang,Xuelong Li,Tiejun Huang |
発行日 | 2024-04-25 14:34:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google