要約
テスト時により多くの計算リソースを利用することにより、追加のトレーニングなしで大規模な言語モデル(LLMS)が改善できます。
1つの一般的な戦略では、検証剤を使用して候補の出力を評価します。
この作業では、テスト時間計算の新しいスケーリングディメンション:検証剤の数をスケーリングすることを提案します。
マルチエージェント検証(MAV)を、複数の検証剤を組み合わせてパフォーマンスを向上させるテスト時間計算パラダイムとして紹介します。
Aspect Verifiers(AVS)を使用して、既製のLLMSを使用して、MAVシステムの検証剤の可能な選択肢の1つとして、出力のさまざまな側面を検証するように求められます。
AVSは、追加のトレーニングなしで簡単に組み合わせることができるため、MAVにとって便利なビルディングブロックです。
さらに、Bon-Mavは、Best-of-nサンプリングと複数の検証剤を組み合わせた単純なマルチエージェント検証アルゴリズムを紹介します。
Bon-Mavは、自己整合性と報酬モデルの検証よりも強力なスケーリングパターンを示し、弱い検証剤を組み合わせることでさらに強いLLMを改善する弱いから強い一般化の両方を示します。
私たちの結果は、テスト時に言語モデルのパフォーマンスを改善するための有望な新しい次元として検証剤の数をスケーリングすることを確立します。
要約(オリジナル)
By utilizing more computational resources at test-time, large language models (LLMs) can improve without additional training. One common strategy uses verifiers to evaluate candidate outputs. In this work, we propose a novel scaling dimension for test-time compute: scaling the number of verifiers. We introduce Multi-Agent Verification (MAV) as a test-time compute paradigm that combines multiple verifiers to improve performance. We propose using Aspect Verifiers (AVs), off-the-shelf LLMs prompted to verify different aspects of outputs, as one possible choice for the verifiers in a MAV system. AVs are a convenient building block for MAV since they can be easily combined without additional training. Moreover, we introduce BoN-MAV, a simple multi-agent verification algorithm that combines best-of-n sampling with multiple verifiers. BoN-MAV demonstrates stronger scaling patterns than self-consistency and reward model verification, and we demonstrate both weak-to-strong generalization, where combining weak verifiers improves even stronger LLMs, and self-improvement, where the same base model is used to both generate and verify outputs. Our results establish scaling the number of verifiers as a promising new dimension for improving language model performance at test-time.
arxiv情報
著者 | Shalev Lifshitz,Sheila A. McIlraith,Yilun Du |
発行日 | 2025-02-27 18:53:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google