DeepSeek LLM: Scaling Open-Source Language Models with Longtermism

要約

オープンソースの大規模言語モデル (LLM) の急速な発展は本当に目覚ましいものがあります。
ただし、以前の文献で説明されているスケーリングの法則はさまざまな結論を提示しており、LLM のスケーリングに暗雲を投げかけています。
私たちはスケーリングの法則の研究を詳しく調査し、一般的に使用される 2 つのオープンソース構成、7B と 67B で大規模モデルのスケーリングを容易にする特徴的な発見を紹介します。
スケーリングの法則に基づいて、長期的な視点でオープンソース言語モデルの進歩に特化したプロジェクトである DeepSeek LLM を紹介します。
トレーニング前の段階をサポートするために、現在 2 兆のトークンで構成され、継続的に拡大しているデータセットを開発しました。
さらに、DeepSeek LLM Base モデルに対して教師あり微調整 (SFT) と Direct Preference Optimization (DPO) を実行し、DeepSeek Chat モデルを作成します。
私たちの評価結果は、DeepSeek LLM 67B がさまざまなベンチマーク、特にコード、数学、推論の領域で LLaMA-2 70B を上回っていることを示しています。
さらに、自由形式の評価により、DeepSeek LLM 67B Chat が GPT-3.5 と比較して優れたパフォーマンスを示すことが明らかになりました。

要約(オリジナル)

The rapid development of open-source large language models (LLMs) has been truly remarkable. However, the scaling law described in previous literature presents varying conclusions, which casts a dark cloud over scaling LLMs. We delve into the study of scaling laws and present our distinctive findings that facilitate scaling of large scale models in two commonly used open-source configurations, 7B and 67B. Guided by the scaling laws, we introduce DeepSeek LLM, a project dedicated to advancing open-source language models with a long-term perspective. To support the pre-training phase, we have developed a dataset that currently consists of 2 trillion tokens and is continuously expanding. We further conduct supervised fine-tuning (SFT) and Direct Preference Optimization (DPO) on DeepSeek LLM Base models, resulting in the creation of DeepSeek Chat models. Our evaluation results demonstrate that DeepSeek LLM 67B surpasses LLaMA-2 70B on various benchmarks, particularly in the domains of code, mathematics, and reasoning. Furthermore, open-ended evaluations reveal that DeepSeek LLM 67B Chat exhibits superior performance compared to GPT-3.5.

arxiv情報

著者 DeepSeek-AI,:,Xiao Bi,Deli Chen,Guanting Chen,Shanhuang Chen,Damai Dai,Chengqi Deng,Honghui Ding,Kai Dong,Qiushi Du,Zhe Fu,Huazuo Gao,Kaige Gao,Wenjun Gao,Ruiqi Ge,Kang Guan,Daya Guo,Jianzhong Guo,Guangbo Hao,Zhewen Hao,Ying He,Wenjie Hu,Panpan Huang,Erhang Li,Guowei Li,Jiashi Li,Yao Li,Y. K. Li,Wenfeng Liang,Fangyun Lin,A. X. Liu,Bo Liu,Wen Liu,Xiaodong Liu,Xin Liu,Yiyuan Liu,Haoyu Lu,Shanghao Lu,Fuli Luo,Shirong Ma,Xiaotao Nie,Tian Pei,Yishi Piao,Junjie Qiu,Hui Qu,Tongzheng Ren,Zehui Ren,Chong Ruan,Zhangli Sha,Zhihong Shao,Junxiao Song,Xuecheng Su,Jingxiang Sun,Yaofeng Sun,Minghui Tang,Bingxuan Wang,Peiyi Wang,Shiyu Wang,Yaohui Wang,Yongji Wang,Tong Wu,Y. Wu,Xin Xie,Zhenda Xie,Ziwei Xie,Yiliang Xiong,Hanwei Xu,R. X. Xu,Yanhong Xu,Dejian Yang,Yuxiang You,Shuiping Yu,Xingkai Yu,B. Zhang,Haowei Zhang,Lecong Zhang,Liyue Zhang,Mingchuan Zhang,Minghua Zhang,Wentao Zhang,Yichao Zhang,Chenggang Zhao,Yao Zhao,Shangyan Zhou,Shunfeng Zhou,Qihao Zhu,Yuheng Zou
発行日 2024-01-05 18:59:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク