SETS: Leveraging Self-Verification and Self-Correction for Improved Test-Time Scaling

要約

大規模な言語モデル(LLMS)の最近の進歩により、テスト時間計算を活用することにより、複雑な推論タスクのパフォーマンスを向上させる新しい機会が生まれました。
ただし、過半数の投票や報酬モデルのスコアリングによる繰り返しサンプリングなどの従来のアプローチは、費用のかかるタスク固有の報酬モデルトレーニングを必要とすることに加えて、テスト時間計算スケールとしてのリターンの減少に直面することがよくあります。
このホワイトペーパーでは、これらの制限を克服するために最近の高度なLLMの自己検証と自己修正機能を活用する新しい方法である、自己強化テスト時間スケーリング(SET)を提示します。
セットは、サンプリング、自己検証、および自己修正を統合フレームワークに統合し、複雑なタスクでの機能を改善するために効率的でスケーラブルなテスト時間計算を可能にします。
代替案と比較して、挑戦的な計画と推論ベンチマークに関する広範な実験を通じて、セットが大幅なパフォーマンスの改善とより有利なテスト時間スケーリング法則を達成することを実証します。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have created new opportunities to enhance performance on complex reasoning tasks by leveraging test-time computation. However, conventional approaches such as repeated sampling with majority voting or reward model scoring, often face diminishing returns as test-time compute scales, in addition to requiring costly task-specific reward model training. In this paper, we present Self-Enhanced Test-Time Scaling (SETS), a novel method that leverages the self-verification and self-correction capabilities of recent advanced LLMs to overcome these limitations. SETS integrates sampling, self-verification, and self-correction into a unified framework, enabling efficient and scalable test-time computation for improved capabilities at complex tasks. Through extensive experiments on challenging planning and reasoning benchmarks, compared to the alternatives, we demonstrate that SETS achieves significant performance improvements and more favorable test-time scaling laws.

arxiv情報

著者 Jiefeng Chen,Jie Ren,Xinyun Chen,Chengrun Yang,Ruoxi Sun,Sercan Ö Arık
発行日 2025-01-31 17:03:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク