要約
ChatGPTやLLaMAのような大規模言語モデル(LLM)の出現は、ドメイン固有のタスクにおける限界に遭遇し、これらのモデルはしばしば専門的な領域における深さと正確さに欠け、微調整されたときに一般的な能力、特に小規模モデルにおける分析能力の低下を示す。このようなギャップに対処するために、我々はICE-GRTを導入する。ICE-GRTは、人間のフィードバックからの強化学習(Reinforcement Learning from Human Feedback:RLHF)を活用し、近接政策最適化(Proximal Policy Optimization:PPO)を基盤としており、一般的なタスク性能を損なうことなく、領域内シナリオにおいて顕著な能力を示す。ICE-GRTの研究により、ICE-GRTの理解と推論能力は、ロバストな答えを生成するだけでなく、答えの背後にある理由の詳細な分析を提供することができることが明らかになった。この能力は、教師あり微調整モデルの範囲を超える重要な進歩である。ICE-GRTの成功は、適切なデータ、報酬サイズのスケーリング、KL-制御、アドバンテージの正規化など、いくつかの重要な要因に依存する。ICE-GRTモデルは、ドメイン固有のタスクにおいて、また12の一般的な言語タスクにおいて、同等のサイズやさらに大きなサイズのLLMに対して最先端の性能を示し、我々のアプローチの有効性を強調する。ICE-GRTの包括的な分析を行い、ICE-GRTがLLM分野にもたらす重要な進歩を強調する。
要約(オリジナル)
The emergence of Large Language Models (LLMs) such as ChatGPT and LLaMA encounter limitations in domain-specific tasks, with these models often lacking depth and accuracy in specialized areas, and exhibiting a decrease in general capabilities when fine-tuned, particularly analysis ability in small sized models. To address these gaps, we introduce ICE-GRT, utilizing Reinforcement Learning from Human Feedback (RLHF) grounded in Proximal Policy Optimization (PPO), demonstrating remarkable ability in in-domain scenarios without compromising general task performance. Our exploration of ICE-GRT highlights its understanding and reasoning ability to not only generate robust answers but also to provide detailed analyses of the reasons behind the answer. This capability marks a significant progression beyond the scope of Supervised Fine-Tuning models. The success of ICE-GRT is dependent on several crucial factors, including Appropriate Data, Reward Size Scaling, KL-Control, Advantage Normalization, etc. The ICE-GRT model exhibits state-of-the-art performance in domain-specific tasks and across 12 general Language tasks against equivalent size and even larger size LLMs, highlighting the effectiveness of our approach. We provide a comprehensive analysis of the ICE-GRT, underscoring the significant advancements it brings to the field of LLM.
arxiv情報
著者 | Chen Zheng,Ke Sun,Da Tang,Yukun Ma,Yuyu Zhang,Chenguang Xi,Xun Zhou |
発行日 | 2024-01-04 05:47:41+00:00 |
arxivサイト | arxiv_id(pdf) |