ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools

要約

私たちが時間をかけて開発してきた、進化する大規模言語モデルのファミリーである ChatGLM を紹介します。
このレポートは主に、GLM-4、GLM-4-Air、GLM-4-9B を含む GLM-4 言語シリーズに焦点を当てています。
これらは、過去 3 世代の ChatGLM から得られたすべての洞察と教訓を使用してトレーニングされた、最も有能なモデルを表しています。
現在まで、GLM-4 モデルは、主に中国語と英語の 10 兆個のトークンと、24 言語の小規模なコーパス セットで事前トレーニングされており、主に中国語と英語の使用に合わせて調整されています。
高品質の調整は、監視付き微調整と人間のフィードバックからの学習を含む、多段階のトレーニング後のプロセスを通じて実現されます。
評価によると、GLM-4 は 1) MMLU、GSM8K、MATH、BBH、GPQA、HumanEval などの一般的な指標の点で GPT-4 に匹敵するか、またはそれを上回っており、2) 測定された指示に従って GPT-4-Turbo に近づいています。
IFEval によると、3) 長いコンテキスト タスクでは GPT-4 Turbo (128K) および Claude 3 に匹敵し、4) AlignBench によって測定された中国語アライメントでは GPT-4 を上回っています。
GLM-4 All Tools モデルは、ユーザーの意図を理解し、Web ブラウザー、Python インタープリター、テキストから画像へのモデル、ユーザー定義関数などのツールをいつ、どのツールを使用するかを自律的に決定できるようにさらに調整されています。
複雑なタスクを完了します。
実際のアプリケーションでは、Web ブラウジングを介してオンライン情報にアクセスしたり、Python インタープリターを使用して数学の問題を解決したりするなどのタスクにおいて、GPT-4 All Tools に匹敵し、さらにはそれを上回ります。
その間、ChatGLM-6B (3 世代)、GLM-4-9B (128K、1M)、GLM-4V-9B、WebGLM、CodeGeeX などの一連のモデルをオープンソース化し、1,000 万以上のダウンロードを集めました。
2023 年だけでも顔に抱きつきます。
オープン モデルには、https://github.com/THUDM および https://huggingface.co/THUDM を通じてアクセスできます。

要約(オリジナル)

We introduce ChatGLM, an evolving family of large language models that we have been developing over time. This report primarily focuses on the GLM-4 language series, which includes GLM-4, GLM-4-Air, and GLM-4-9B. They represent our most capable models that are trained with all the insights and lessons gained from the preceding three generations of ChatGLM. To date, the GLM-4 models are pre-trained on ten trillions of tokens mostly in Chinese and English, along with a small set of corpus from 24 languages, and aligned primarily for Chinese and English usage. The high-quality alignment is achieved via a multi-stage post-training process, which involves supervised fine-tuning and learning from human feedback. Evaluations show that GLM-4 1) closely rivals or outperforms GPT-4 in terms of general metrics such as MMLU, GSM8K, MATH, BBH, GPQA, and HumanEval, 2) gets close to GPT-4-Turbo in instruction following as measured by IFEval, 3) matches GPT-4 Turbo (128K) and Claude 3 for long context tasks, and 4) outperforms GPT-4 in Chinese alignments as measured by AlignBench. The GLM-4 All Tools model is further aligned to understand user intent and autonomously decide when and which tool(s) touse — including web browser, Python interpreter, text-to-image model, and user-defined functions — to effectively complete complex tasks. In practical applications, it matches and even surpasses GPT-4 All Tools in tasks like accessing online information via web browsing and solving math problems using Python interpreter. Over the course, we have open-sourced a series of models, including ChatGLM-6B (three generations), GLM-4-9B (128K, 1M), GLM-4V-9B, WebGLM, and CodeGeeX, attracting over 10 million downloads on Hugging face in the year 2023 alone. The open models can be accessed through https://github.com/THUDM and https://huggingface.co/THUDM.

arxiv情報

著者 Team GLM,:,Aohan Zeng,Bin Xu,Bowen Wang,Chenhui Zhang,Da Yin,Dan Zhang,Diego Rojas,Guanyu Feng,Hanlin Zhao,Hanyu Lai,Hao Yu,Hongning Wang,Jiadai Sun,Jiajie Zhang,Jiale Cheng,Jiayi Gui,Jie Tang,Jing Zhang,Jingyu Sun,Juanzi Li,Lei Zhao,Lindong Wu,Lucen Zhong,Mingdao Liu,Minlie Huang,Peng Zhang,Qinkai Zheng,Rui Lu,Shuaiqi Duan,Shudan Zhang,Shulin Cao,Shuxun Yang,Weng Lam Tam,Wenyi Zhao,Xiao Liu,Xiao Xia,Xiaohan Zhang,Xiaotao Gu,Xin Lv,Xinghan Liu,Xinyi Liu,Xinyue Yang,Xixuan Song,Xunkai Zhang,Yifan An,Yifan Xu,Yilin Niu,Yuantao Yang,Yueyan Li,Yushi Bai,Yuxiao Dong,Zehan Qi,Zhaoyu Wang,Zhen Yang,Zhengxiao Du,Zhenyu Hou,Zihan Wang
発行日 2024-07-30 03:58:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク