要約
ChatGLMは、大規模言語モデル(LLM)のChatGLMファミリーを搭載した、無料で利用できるAIサービスである。本稿では、ChatGLMと人間の嗜好との整合性を高めるために設計された、人間のフィードバックからの強化学習(RLHF)システムであるChatGLM-RLHFパイプラインを紹介する。ChatGLM-RLHFは、人間の嗜好データの収集、報酬モデルの学習、ポリシーの最適化の3つの主要なコンポーネントから構成される。ChatGLM-RLHFをプロダクションに統合する過程で、我々はいくつかの前例のない課題に遭遇し、対処しました。安定化された大規模トレーニングのための報酬分散を緩和する戦略、融合勾配降下によるモデル並列性の実装、LLMにおける壊滅的な忘却を回避するための正則化制約の設計を紹介する。実験によれば、ChatGLM-RLHFは、教師ありファインチューニング(SFT)版ChatGLMと比較して、アライメントタスクにおいて大幅な改善をもたらす。例えば、ChatGLM-RLHFは中国語のアライメントタスクにおいて、ChatGLM-SFTに対して平均15%以上の勝率を達成している。本論文では、人間の嗜好に合わせたLLMのアライメントの実践を紹介し、RLHFの実装における課題と解決策についての洞察を提供する。
要約(オリジナル)
ChatGLM is a free-to-use AI service powered by the ChatGLM family of large language models (LLMs). In this paper, we present the ChatGLM-RLHF pipeline — a reinforcement learning from human feedback (RLHF) system — designed to enhance ChatGLM’s alignment with human preferences. ChatGLM-RLHF encompasses three major components: the collection of human preference data, the training of the reward model, and the optimization of policies. Throughout the process of integrating ChatGLM-RLHF into production, we encountered and addressed several unprecedented challenges. We introduce the strategies to mitigate reward variance for stabilized large-scale training, implement model parallelism with fused gradient-descent, and design regularization constraints to avoid catastrophic forgetting in LLMs. Experiments show that ChatGLM-RLHF brings significant improvements in alignment tasks compared to the supervised fine-tuned (SFT) version of ChatGLM. For instance, it achieves on average 15\% more wins against ChatGLM-SFT in Chinese alignment tasks. The work presents our practices of aligning LLMs with human preferences, offering insights into the challenges and solutions in RLHF implementations.
arxiv情報
| 著者 | Zhenyu Hou,Yilin Niu,Zhengxiao Du,Xiaohan Zhang,Xiao Liu,Aohan Zeng,Qinkai Zheng,Minlie Huang,Hongning Wang,Jie Tang,Yuxiao Dong |
| 発行日 | 2024-04-03 17:04:06+00:00 |
| arxivサイト | arxiv_id(pdf) |