要約
最近、大規模な言語モデル(LLM)でのスケーリングテスト時間コンピューティングが幅広い注目を集めています。
ただし、さまざまな推論促進戦略がスケーリングとしてどのように機能するかについての調査は限られています。
この論文では、標準的で現実的なスケーリング設定である多数決に焦点を当てています。
6 llms $ \ times $ 8のプロンプト戦略$ \ times $ 6ベンチマークで実験を体系的に実施します。
実験結果は、サンプリング時間と計算オーバーヘッドが増加するにつれて、優れた初期パフォーマンスを備えた複雑な促進戦略が徐々に単純なチェーンに遅れをとることを一貫して示しています。
この現象を分析し、理論的な証拠を提供します。
さらに、スケーリングパフォーマンスを効率的に予測し、大きなサンプリング時間の下で最適なプロンプト戦略を特定する確率的方法を提案し、実際のアプリケーションでリソース集約的な推論プロセスの必要性を排除します。
さらに、スケーリングパフォーマンスを大幅に改善するために、理論分析から導き出された2つの方法を紹介します。
私たちの研究が、複雑な促進の役割を再検討し、単純な促進戦略の可能性を解き放ち、テスト時間スケーリングパフォーマンスを強化するための新しい洞察を提供することを促進できることを願っています。
コードはhttps://github.com/mradonkey/rethinking_promptingで入手できます。
要約(オリジナル)
Recently, scaling test-time compute on Large Language Models (LLM) has garnered wide attention. However, there has been limited investigation of how various reasoning prompting strategies perform as scaling. In this paper, we focus on a standard and realistic scaling setting: majority voting. We systematically conduct experiments on 6 LLMs $\times$ 8 prompting strategies $\times$ 6 benchmarks. Experiment results consistently show that as the sampling time and computational overhead increase, complicated prompting strategies with superior initial performance gradually fall behind simple Chain-of-Thought. We analyze this phenomenon and provide theoretical proofs. Additionally, we propose a probabilistic method to efficiently predict scaling performance and identify the best prompting strategy under large sampling times, eliminating the need for resource-intensive inference processes in practical applications. Furthermore, we introduce two ways derived from our theoretical analysis to significantly improve the scaling performance. We hope that our research can promote to re-examine the role of complicated prompting, unleash the potential of simple prompting strategies, and provide new insights for enhancing test-time scaling performance. Code is available at https://github.com/MraDonkey/rethinking_prompting.
arxiv情報
| 著者 | Yexiang Liu,Zekun Li,Zhi Fang,Nan Xu,Ran He,Tieniu Tan | 
| 発行日 | 2025-06-04 16:27:57+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
