要約
テスト時間スケーリングパラダイムは、複雑なタスク上の大規模な言語モデル(LLMS)の機能を大幅に進めています。
経験的な成功にもかかわらず、自己整合性、ベスト$ n $、自己修正など、さまざまなテスト時間戦略のサンプル効率の理論的理解は限られたままです。
この作業では、最初に2つの繰り返しサンプリング戦略の間に分離結果を確立します。自己整合性には$ \ theta(1/\ delta^2)$サンプルが正しい答えを生成しますが、ベスト$ n $は$ \ theta(1/\ delta)$のみを必要とします。
次に、検証剤フィードバックを使用して、自己修正アプローチの表現力の結果を提示します。これにより、トランスはテスト時に専門家のプールでオンライン学習をシミュレートできます。
したがって、単一の変圧器アーキテクチャは、ユーザークエリに関連する特定のタスクの事前知識なしに複数のタスクを証明し、トランスの表現理論をシングルタスクからマルチタスク設定に拡張します。
最後に、理論的な結果を経験的に検証し、自己修正方法の実際的な有効性を実証します。
要約(オリジナル)
Test-time scaling paradigms have significantly advanced the capabilities of large language models (LLMs) on complex tasks. Despite their empirical success, theoretical understanding of the sample efficiency of various test-time strategies — such as self-consistency, best-of-$n$, and self-correction — remains limited. In this work, we first establish a separation result between two repeated sampling strategies: self-consistency requires $\Theta(1/\Delta^2)$ samples to produce the correct answer, while best-of-$n$ only needs $\Theta(1/\Delta)$, where $\Delta < 1$ denotes the probability gap between the correct and second most likely answers. Next, we present an expressiveness result for the self-correction approach with verifier feedback: it enables Transformers to simulate online learning over a pool of experts at test time. Therefore, a single Transformer architecture can provably solve multiple tasks without prior knowledge of the specific task associated with a user query, extending the representation theory of Transformers from single-task to multi-task settings. Finally, we empirically validate our theoretical results, demonstrating the practical effectiveness of self-correction methods.
arxiv情報
著者 | Baihe Huang,Shanda Li,Tianhao Wu,Yiming Yang,Ameet Talwalkar,Kannan Ramchandran,Michael I. Jordan,Jiantao Jiao |
発行日 | 2025-06-12 16:25:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google