要約
現在の AI 調整方法は人間によるデモンストレーションや判断に依存しており、結果として AI システムの学習能力は人間の能力によって上限が定められてしまいます。
これは、研究上の挑戦的な質問を提起します。システムの能力が人間のレベルを超えているときに、どのようにしてシステムを改善し続けることができるのでしょうか?
この論文は、難しい推論タスク (例: レベル 4-5 の数学問題) に取り組むというコンテキストで、より簡単なタスク (例: レベル 1-3 の数学問題) に対する人間の注釈から学習するという文脈で、この質問に答えます。これを \textit{easy と呼びます。
-厳密な一般化}。
私たちの重要な洞察は、より簡単なタスクの監督について訓練された評価者 (報酬モデル) が、より難しいタスクの候補解決策をスコアリングするために効果的に使用できるため、さまざまなレベルのタスクにわたって簡単から難しいまでの一般化を促進できるということです。
この洞察に基づいて、我々はスケーラブルな調整への新しいアプローチを提案します。このアプローチは、まず簡単な問題 (レベル 1 ~ 3 など) でプロセス教師付き報酬モデルをトレーニングし、次にそれを使用して難しい問題での政策モデルのパフォーマンスを評価します。
このような \textit{評価者からの簡単に難しい一般化} は、再ランキングまたは強化学習 (RL) を通じて \textit{ジェネレータでの簡単に難しい一般化} を可能にすることができることを示します。
特に、当社のプロセス監視付き 7b RL モデルは、簡単な問題に対して人間による監視のみを使用しているにもかかわらず、MATH500 で 34.0\% の精度を達成しています。
私たちのアプローチは、人間による監視の限界を超えて進歩する AI システムへの有望な道筋を示唆しています。
要約(オリジナル)
Current AI alignment methodologies rely on human-provided demonstrations or judgments, and the learned capabilities of AI systems would be upper-bounded by human capabilities as a result. This raises a challenging research question: How can we keep improving the systems when their capabilities have surpassed the levels of humans? This paper answers this question in the context of tackling hard reasoning tasks (e.g., level 4-5 MATH problems) via learning from human annotations on easier tasks (e.g., level 1-3 MATH problems), which we term as \textit{easy-to-hard generalization}. Our key insight is that an evaluator (reward model) trained on supervisions for easier tasks can be effectively used for scoring candidate solutions of harder tasks and hence facilitating easy-to-hard generalization over different levels of tasks. Based on this insight, we propose a novel approach to scalable alignment, which firstly trains the process-supervised reward models on easy problems (e.g., level 1-3), and then uses them to evaluate the performance of policy models on hard problems. We show that such \textit{easy-to-hard generalization from evaluators} can enable \textit{easy-to-hard generalizations in generators} either through re-ranking or reinforcement learning (RL). Notably, our process-supervised 7b RL model achieves an accuracy of 34.0\% on MATH500, despite only using human supervision on easy problems. Our approach suggests a promising path toward AI systems that advance beyond the frontier of human supervision.
arxiv情報
著者 | Zhiqing Sun,Longhui Yu,Yikang Shen,Weiyang Liu,Yiming Yang,Sean Welleck,Chuang Gan |
発行日 | 2024-03-14 15:12:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google