要約
大規模な言語モデルは、さまざまなダウンストリームタスクで優れたパフォーマンスを実証しており、複数のシナリオで広く適用されています。
人間が解決した選好データは、人間のパフォーマンスの上限によって制約されるLLMSのパフォーマンスをさらに向上させるためにトレーニングに使用されます。
したがって、LLMSが独自の出力に報いることによりトレーニングデータを生成する自己報酬方法が提案されています。
ただし、既存の自己報酬のパラダイムは、数学的推論シナリオでは効果的ではなく、パフォーマンスの低下につながる可能性さえあります。
この作業では、言語モデル向けのプロセスベースの自己報酬パイプラインを提案します。これは、自己報酬パラダイム内で、長期にわたる推論、段階的なLLM-As-a-a-a-a-a-a-a-a-a-a-a-a-a-judge、および段階的な選好最適化を導入します。
私たちの新しいパラダイムは、複数の数学的推論ベンチマークでのLLMSのパフォーマンスを正常に強化し、反復プロセスベースの自己報酬を介して、人間の能力を上回るLLM推論を達成するための自己報酬の計り知れない可能性を示しています。
要約(オリジナル)
Large Language Models have demonstrated outstanding performance across various downstream tasks and have been widely applied in multiple scenarios. Human-annotated preference data is used for training to further improve LLMs’ performance, which is constrained by the upper limit of human performance. Therefore, Self-Rewarding method has been proposed, where LLMs generate training data by rewarding their own outputs. However, the existing self-rewarding paradigm is not effective in mathematical reasoning scenarios and may even lead to a decline in performance. In this work, we propose the Process-based Self-Rewarding pipeline for language models, which introduces long-thought reasoning, step-wise LLM-as-a-Judge, and step-wise preference optimization within the self-rewarding paradigm. Our new paradigm successfully enhances the performance of LLMs on multiple mathematical reasoning benchmarks through iterative Process-based Self-Rewarding, demonstrating the immense potential of self-rewarding to achieve LLM reasoning that may surpass human capabilities.
arxiv情報
著者 | Shimao Zhang,Xiao Liu,Xin Zhang,Junxiao Liu,Zheheng Luo,Shujian Huang,Yeyun Gong |
発行日 | 2025-03-05 18:58:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google