要約
複雑な推論を行うための大規模な言語モデル(LLMS)にとっての重要な課題の1つは、特定のタスクを解決するための最も適切な認知戦略を積極的に選択するのではなく、トレーニングデータからの合理的なパターンを一致させることに依存することです。
既存のアプローチは、特定のタスクのパフォーマンスを向上させるが、多様なシナリオ全体で適応性を欠いている固定認知構造を課します。
この制限に対処するために、メタの思考に基づいたテスト時間スケーリングフレームワークであるメタスケールを紹介します。各タスクに合わせた適応的思考戦略です。
Metascaleは、候補メタ思考のプールを初期化し、その後、報酬モデルに導かれた、信頼境界選択を備えたマルチアームのBanditアルゴリズムを使用してそれらを繰り返し選択して評価します。
適応性をさらに向上させるために、遺伝的アルゴリズムは高報酬のメタ思考を進化させ、時間の経過とともに戦略プールを改良および拡張します。
推論時にメタ思考を動的に提案および最適化することにより、メタスカールは、幅広いタスクにわたって精度と一般化の両方を改善します。
実験結果は、メタスケールが一貫して標準推論アプローチを上回り、GPT-4Oのアリーナハードの勝利率で11%のパフォーマンスを達成し、スタイル制御下でO1-MINIを0.9%上回ることを示しています。
特に、メタスケールはサンプリング予算の増加とともにより効果的にスケーリングし、より構造化された専門家レベルの応答を生み出します。
要約(オリジナル)
One critical challenge for large language models (LLMs) for making complex reasoning is their reliance on matching reasoning patterns from training data, instead of proactively selecting the most appropriate cognitive strategy to solve a given task. Existing approaches impose fixed cognitive structures that enhance performance in specific tasks but lack adaptability across diverse scenarios. To address this limitation, we introduce METASCALE, a test-time scaling framework based on meta-thoughts — adaptive thinking strategies tailored to each task. METASCALE initializes a pool of candidate meta-thoughts, then iteratively selects and evaluates them using a multi-armed bandit algorithm with upper confidence bound selection, guided by a reward model. To further enhance adaptability, a genetic algorithm evolves high-reward meta-thoughts, refining and extending the strategy pool over time. By dynamically proposing and optimizing meta-thoughts at inference time, METASCALE improves both accuracy and generalization across a wide range of tasks. Experimental results demonstrate that MetaScale consistently outperforms standard inference approaches, achieving an 11% performance gain in win rate on Arena-Hard for GPT-4o, surpassing o1-mini by 0.9% under style control. Notably, METASCALE scales more effectively with increasing sampling budgets and produces more structured, expert-level responses.
arxiv情報
著者 | Qin Liu,Wenxuan Zhou,Nan Xu,James Y. Huang,Fei Wang,Sheng Zhang,Hoifung Poon,Muhao Chen |
発行日 | 2025-03-17 17:59:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google