要約
近年の大規模言語モデル(LLM)の進歩により、テスト時間の計算を活用することで、複雑な推論タスクのパフォーマンスを向上させる新たな機会が生まれている。しかし、多数決による繰り返しサンプリングや、報酬モデルのスコアリングなどの従来のアプローチは、テスト時間の計算がスケールするにつれて、しばしば収穫の減少に直面する。本論文では、これらの限界を克服するために、最近の高度なLLMの自己検証・自己修正機能を活用した新しい手法であるSelf-Enhanced Test-Time Scaling (SETS)を紹介する。SETSは、サンプリング、自己検証、自己修正を統一されたフレームワークに統合し、複雑なタスクにおける能力向上のための効率的でスケーラブルなテスト時間計算を可能にする。難易度の高いプランニングと推論のベンチマークに対する広範な実験を通じて、SETSが代替手段と比較して、大幅な性能向上とより有利なテスト時間スケーリング則を達成することを実証する。
要約(オリジナル)
Recent advancements in Large Language Models (LLMs) have created new opportunities to enhance performance on complex reasoning tasks by leveraging test-time computation. However, conventional approaches such as repeated sampling with majority voting or reward model scoring, often face diminishing returns as test-time compute scales, in addition to requiring costly task-specific reward model training. In this paper, we present Self-Enhanced Test-Time Scaling (SETS), a novel method that leverages the self-verification and self-correction capabilities of recent advanced LLMs to overcome these limitations. SETS integrates sampling, self-verification, and self-correction into a unified framework, enabling efficient and scalable test-time computation for improved capabilities at complex tasks. Through extensive experiments on challenging planning and reasoning benchmarks, compared to the alternatives, we demonstrate that SETS achieves significant performance improvements and more favorable test-time scaling laws.
arxiv情報
著者 | Jiefeng Chen,Jie Ren,Xinyun Chen,Chengrun Yang,Ruoxi Sun,Sercan Ö Arık |
発行日 | 2025-02-03 06:21:08+00:00 |
arxivサイト | arxiv_id(pdf) |