要約
大規模な言語モデル(LLM)は、推論時に言語化された推論の恩恵を受けることがよくありますが、タスクのどの側面がこれらの余分な推論トークンを困難にするかは不明のままです。
この質問を調査するために、決定論的な有限オートマトン(DFA)を使用してフレームワークを正式にします。
DFAは、実行された長さ(必要な推論ステップの数)や状態空間サイズ(決定の複雑さ)などの測定可能な特性を通じてタスクの複雑さを特徴付けることができる形式を提供します。
まず、さまざまなサイズとトレーニングパラダイムのさまざまなタスクとモデルで、正しいソリューションを生成する確率が最大化されるように、最適な推論トークンが存在することを示します。
次に、どの複雑さの特性がこの臨界長を支配するかを調査します。より長い対応する基礎となるDFAの実行(つまり、より大きな潜在的な状態追跡要件を要求する)が長い推論の長さと相関していることがわかりますが、驚くべきことに、DFAサイズ(つまり、状態空間の複雑さ)はそうではありません。
次に、これらの発見の意味を示します。新しい問題の最適な推論トークンを予測し、最適でない長さの回答を除外すると、一貫した精度の改善が得られます。
要約(オリジナル)
Large language models (LLMs) often benefit from verbalized reasoning at inference time, but it remains unclear which aspects of task difficulty these extra reasoning tokens address. To investigate this question, we formalize a framework using deterministic finite automata (DFAs). DFAs offer a formalism through which we can characterize task complexity through measurable properties such as run length (number of reasoning steps required) and state-space size (decision complexity). We first show that across different tasks and models of different sizes and training paradigms, there exists an optimal amount of reasoning tokens such that the probability of producing a correct solution is maximized. We then investigate which properties of complexity govern this critical length: we find that task instances with longer corresponding underlying DFA runs (i.e. demand greater latent state-tracking requirements) correlate with longer reasoning lengths, but, surprisingly, that DFA size (i.e. state-space complexity) does not. We then demonstrate an implication of these findings: being able to predict the optimal number of reasoning tokens for new problems and filtering out non-optimal length answers results in consistent accuracy improvements.
arxiv情報
著者 | Celine Lee,Alexander M. Rush,Keyon Vafa |
発行日 | 2025-04-02 17:45:58+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google