PREMISE: Scalable and Strategic Prompt Optimization for Efficient Mathematical Reasoning in Large Models

要約

Claude 3.7 SonnetやOpenai O1などの大規模な推論モデル(LRM)は、長い考え方(COT)の推論を使用して数学ベンチマークで強力なパフォーマンスを実現しますが、結果として生じる痕跡は不必要に冗長です。
これにより、トークンの使用とコストが膨らみ、潜在的な展開が潜在的に敏感またはAPIが制約した設定で制限します。
モデルの重みを変更せずにオーバーヘッドを削減するプロンプトのみのフレームワークである、前提(戦略的評価を使用したプロンプトベースの効率的な数学的推論)を紹介します。
Premiseは、トレースレベルの診断とグラデーションにインスパイアされた迅速な最適化を組み合わせて、回答の精度を維持しながら冗長計算を最小限に抑えます。
このアプローチは、トークンの長さのバランスをとる多目的テキスト検索と妥当性に応答する多目的テキスト検索を通じて、簡潔さと正確性を共同で最適化します。
以前の作業とは異なり、Premiseはシングルパスブラックボックスインターフェイスで実行されるため、市販のLLMに直接適用できます。
GSM8K、SVAMP、およびMATH500では、ベースラインの精度($ 96 \%\ rightArrow96 \%$ with claude、$ 91 \%\ rightArrow92 \%\%$ with gemini)に合わせて一致します。
これらの結果は、プロンプトレベルの最適化が、推論の品質を損なうことなく、効率的なLRM推論への実用的でスケーラブルなパスであることを示しています。

要約(オリジナル)

Large reasoning models (LRMs) such as Claude 3.7 Sonnet and OpenAI o1 achieve strong performance on mathematical benchmarks using lengthy chain-of-thought (CoT) reasoning, but the resulting traces are often unnecessarily verbose. This inflates token usage and cost, limiting deployment in latency-sensitive or API-constrained settings. We introduce PREMISE (PRompt-based Efficient Mathematical Inference with Strategic Evaluation), a prompt-only framework that reduces reasoning overhead without modifying model weights. PREMISE combines trace-level diagnostics with gradient-inspired prompt optimization to minimize redundant computation while preserving answer accuracy. The approach jointly optimizes brevity and correctness through a multi-objective textual search that balances token length and answer validity. Unlike prior work, PREMISE runs in a single-pass black-box interface, so it can be applied directly to commercial LLMs. On GSM8K, SVAMP, and Math500 we match or exceed baseline accuracy ($96\%\rightarrow96\%$ with Claude, $91\%\rightarrow92\%$ with Gemini) while reducing reasoning tokens by up to $87.5\%$ and cutting dollar cost by $69$–$82\%$. These results show that prompt-level optimization is a practical and scalable path to efficient LRM inference without compromising reasoning quality.

arxiv情報

著者 Ye Yu,Yaoning Yu,Haohan Wang
発行日 2025-06-12 14:05:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク