Tele-FLM Technical Report

要約

大規模言語モデル (LLM) は、言語の理解と生成における高度な機能を実証し、幅広いアプリケーションを促進します。
しかし、最小限の試行錯誤コストと計算リソースで 500 億パラメータを超えて LLM を効率的に拡張するための詳細なオープンソース手法が著しく不足しています。
このレポートでは、安定した効率的な事前トレーニング パラダイムと強化された事実判断機能を特徴とする 52B オープンソースの多言語大規模言語モデルである Tele-FLM (別名 FLM-2) を紹介します。
Tele-FLM は、テキスト コーパスに関する BPB によって測定された、優れた多言語言語モデリング能力を実証します。
さらに、英語と中国語の両方の基礎モデルの評価において、Llama2-70B や DeepSeek-67B など、大規模な事前トレーニング FLOP を含む強力なオープンソース モデルに匹敵します。
モデルの重みに加えて、コアとなる設計、エンジニアリングの実践、トレーニングの詳細も共有しており、学術界と産業界の両方に利益をもたらすことが期待されています。

要約(オリジナル)

Large language models (LLMs) have showcased profound capabilities in language understanding and generation, facilitating a wide array of applications. However, there is a notable paucity of detailed, open-sourced methodologies on efficiently scaling LLMs beyond 50 billion parameters with minimum trial-and-error cost and computational resources. In this report, we introduce Tele-FLM (aka FLM-2), a 52B open-sourced multilingual large language model that features a stable, efficient pre-training paradigm and enhanced factual judgment capabilities. Tele-FLM demonstrates superior multilingual language modeling abilities, measured by BPB on textual corpus. Besides, in both English and Chinese foundation model evaluation, it is comparable to strong open-sourced models that involve larger pre-training FLOPs, such as Llama2-70B and DeepSeek-67B. In addition to the model weights, we share the core designs, engineering practices, and training details, which we expect to benefit both the academic and industrial communities.

arxiv情報

著者 Xiang Li,Yiqun Yao,Xin Jiang,Xuezhi Fang,Chao Wang,Xinzhang Liu,Zihan Wang,Yu Zhao,Xin Wang,Yuyao Huang,Shuangyong Song,Yongxiang Li,Zheng Zhang,Bo Zhao,Aixin Sun,Yequan Wang,Zhongjiang He,Zhongyuan Wang,Xuelong Li,Tiejun Huang
発行日 2024-04-25 14:34:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク