要約
大規模な言語モデルは、コード生成に優れていますが、洗練された推論を必要とする複雑なプログラミングタスクに苦労しています。
このギャップを埋めるために、従来のプロセス監督は、費用のかかるトレーニングデータを必要とする学習報酬モデルに依存し、報酬の不整合に苦しんでいますが、コンディショニングされた中間ステップを必要とする複雑なタスクでは結果の監督が失敗します。
実行可能な検証を活用することにより、プロセスと結果の監督を統一する結果改良プロセス監督を紹介します。ツリー構造の検索フレームワークは、戦略的な代替手段を生成し、実行メトリックをプロファイルし、ランタイムフィードバックを推論と統合する自己批判メカニズムを介して候補をスコアリングします。
5つのモデルと3つのベンチマークにわたる実験では、一貫した利益が示され、正確性が26.9%高く、コード効率が42.2%改善されました。
結果は、ORPSがLLMがコード生成においてローカルオプティマを克服できることを示しており、検証可能な結果と構造化された推論を組み合わせて複雑な課題に取り組むための有望な方向を示唆しています。
オープンソース:https://github.com/zhuohaoyu/orps
要約(オリジナル)
Large Language Models excel at code generation yet struggle with complex programming tasks that demand sophisticated reasoning. To bridge this gap, traditional process supervision relies on learned reward models requiring costly training data and suffering from reward misalignment, while outcome supervision fails for complex tasks needing coordinated intermediate steps. We introduce Outcome Refining Process Supervision, which unifies process and outcome supervision by leveraging executable verification: a tree-structured search framework generates strategic alternatives, profiles execution metrics, and scores candidates via self-critique mechanisms that integrate runtime feedback with reasoning. Experiments across 5 models and 3 benchmarks show consistent gains, with 26.9% higher correctness and 42.2% improved code efficiency. The results demonstrate that ORPS enables LLMs to overcome local optima in code generation, suggesting a promising direction for combining verifiable outcomes with structured reasoning to tackle complex challenges. We open-source at: https://github.com/zhuohaoyu/ORPS
arxiv情報
著者 | Zhuohao Yu,Weizheng Gu,Yidong Wang,Xingru Jiang,Zhengran Zeng,Jindong Wang,Wei Ye,Shikun Zhang |
発行日 | 2025-06-06 12:13:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google