Learning to Reason Across Parallel Samples for LLM Reasoning

要約

テスト時間計算のスケーリングは、大規模な言語モデル(LLM)にかなりのパフォーマンスの向上をもたらします。
複数の回答をサンプリングし、回答をヒューリスティックに集約することで(たとえば、多数票の投票または検証剤を使用して回答をランク付けすることで)、数学ドメインで一貫したパフォーマンスの向上を達成できます。
この論文では、このような複数のサンプルセットを活用する新しい方法を提案します。
サンプルセットアグリゲーター(SSA)と呼ばれるコンパクトLLMをトレーニングします。これは、複数のサンプルの連結シーケンスを取り、最終回答を出力し、補強学習で回答の精度のために最適化します。
複数の推論データセットでの実験は、SSAが報酬モデルベースの再ランクなどの他のテスト時間スケーリング方法を上回ることを示しています。
また、私たちのアプローチは、サンプルセットサイズ、ベースモデルファミリとスケール、およびタスク全体にわたる有望な一般化能力を示しています。
LLMSを分離して回答とLLMを生成してサンプリングされた回答を分析および集約することにより、プレミアブラックボックスモデルの出力と簡単かつ効率的に連携できます。

要約(オリジナル)

Scaling test-time compute brings substantial performance gains for large language models (LLMs). By sampling multiple answers and heuristically aggregate their answers (e.g., either through majority voting or using verifiers to rank the answers), one can achieve consistent performance gains in math domains. In this paper, we propose a new way to leverage such multiple sample set. We train a compact LLM, called Sample Set Aggregator (SSA), that takes a concatenated sequence of multiple samples and output the final answer, optimizing it for the answer accuracy with reinforcement learning. Experiments on multiple reasoning datasets show that SSA outperforms other test-time scaling methods such as reward model-based re-ranking. Our approach also shows a promising generalization ability, across sample set sizes, base model families and scales, and tasks. By separating LLMs to generate answers and LLMs to analyze and aggregate sampled answers, our approach can work with the outputs from premier black box models easily and efficiently.

arxiv情報

著者 Jianing Qi,Xi Ye,Hao Tang,Zhigang Zhu,Eunsol Choi
発行日 2025-06-10 17:42:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク