FLM-101B: An Open LLM and How to Train It with $100K Budget

要約

大規模言語モデル (LLM) は、NLP およびマルチモーダル タスクにおいて目覚ましい成功を収めています。
これらの成功にもかかわらず、その開発は 2 つの主な課題に直面しています。(i) 高い計算コスト。
(ii) 公正かつ客観的な評価を行うことが困難であること。
LLM は法外に高価であるため、少数の大手企業のみがトレーニングを受けることが可能であり、研究と応用の両方の機会が制限されています。
これは、費用対効果の高い LLM トレーニングの重要性を強調しています。
このペーパーでは、成長戦略を利用して LLM トレーニングのコストを大幅に削減します。
101B パラメータと 0.31TB トークンを持つ LLM が 100,000 ドルの予算でトレーニングできることを実証します。
また、知識指向の能力に重点を置いた既存の評価を補完する形で、LLM の IQ 評価に体系的な評価パラダイムを採用しています。
シンボリック マッピング、ルール理解、パターン マイニング、干渉防止などのインテリジェンスの重要な側面に関する評価を含むベンチマークを紹介します。
このような評価により、暗記による潜在的な影響が最小限に抑えられます。
実験結果は、10 万ドルの予算でトレーニングされた当社のモデル FLM-101B が、特にトレーニング データでは見られないコンテキストによる IQ ベンチマーク評価において、GPT-3 や GLM-130B などの強力でよく知られたモデルと同等のパフォーマンスを達成することを示しています。

FLM-101B のチェックポイントは https://huggingface.co/CofeAI/FLM-101B でオープンソース化されます。

要約(オリジナル)

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.

arxiv情報

著者 Xiang Li,Yiqun Yao,Xin Jiang,Xuezhi Fang,Xuying Meng,Siqi Fan,Peng Han,Jing Li,Li Du,Bowen Qin,Zheng Zhang,Aixin Sun,Yequan Wang
発行日 2023-09-07 17:07:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク