要約
大規模言語モデルは、コード生成において優れた機能を実証していますが、深いアルゴリズム推論を必要とする複雑なプログラミング タスクに苦戦することがよくあります。
学習された報酬モデルによるプロセス監視は、推論ステップを導く上で有望ですが、高価なトレーニング データが必要であり、評価の信頼性が低いという問題があります。
私たちは、結果の洗練自体を監視対象のプロセスとして扱う新しいパラダイムである、結果の洗練プロセスの監視を提案します。
私たちのフレームワークは、具体的な実行信号を活用して推論ステップの監視を確立すると同時に、ツリー構造の探索を使用して複数の解決策の軌道を同時に維持します。
実験では、私たちのアプローチにより、競争プログラミングタスクにおいて、より小さなモデルでも高い成功精度とパフォーマンスメトリクスを達成でき、トレーニング PRM を必要とせずに、従来の報酬モデルよりも信頼性の高い検証が作成できることが実証されました。
私たちのアプローチは、5 つのモデルと 3 つのデータセットにわたって大幅な改善を達成し、正確性が平均 26.9%、効率が 42.2% 向上しました。
この結果は、複雑なプログラミング タスクを解決するには、具体的な検証信号を備えた構造化された推論スペースを提供することが重要であることを示唆しています。
すべてのコードとデータは https://github.com/zhuohaoyu/ORPS でオープンソース化されています。
要約(オリジナル)
Large Language Models have demonstrated remarkable capabilities in code generation, yet they often struggle with complex programming tasks that require deep algorithmic reasoning. While process supervision through learned reward models shows promise in guiding reasoning steps, it requires expensive training data and suffers from unreliable evaluation. We propose Outcome-Refining Process Supervision, a novel paradigm that treats outcome refinement itself as the process to be supervised. Our framework leverages concrete execution signals to ground the supervision of reasoning steps, while using tree-structured exploration to maintain multiple solution trajectories simultaneously. Experiments demonstrate that our approach enables even smaller models to achieve high success accuracy and performance metrics on competitive programming tasks, creates more reliable verification than traditional reward models without requiring training PRMs. Our approach achieves significant improvements across 5 models and 3 datasets: an average of 26.9% increase in correctness and 42.2% in efficiency. The results suggest that providing structured reasoning space with concrete verification signals is crucial for solving complex programming tasks. We open-source all our code and data at: https://github.com/zhuohaoyu/ORPS
arxiv情報
著者 | Zhuohao Yu,Weizheng Gu,Yidong Wang,Zhengran Zeng,Jindong Wang,Wei Ye,Shikun Zhang |
発行日 | 2024-12-19 17:59:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google