Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement

要約

大規模な推論モデル(LRM)の最近の進歩は、人間のような審議思考をエミュレートすることにより、複雑な問題解決における言語モデルの能力を大幅に強化しています。
ただし、これらのモデルはしばしば考え過ぎ(つまり、不必要に冗長で冗長なコンテンツの生成)を示し、効率を妨げ、推論コストを膨らませます。
この作業では、この非効率性の表現的および行動的起源を探り、LRMがより簡潔な推論の能力を本質的に持っていることを明らかにします。
経験的分析は、正しい推論パスの長さが大幅に異なり、最短の正しい応答で十分であり、未処理の効率の可能性を示していることを示しています。
これらの調査結果を利用して、LRM効率を高めるために2つの軽量の方法を提案します。
まず、モデルの表現スペースの単一方向を介して推論行動を調節するトレーニングなしのアクティベーションステアリング技術である効率ステアリングを導入します。
第二に、私たちは、簡潔な正しいソリューションに報いることにより、タスクの精度と簡潔さを動的にバランスさせる強化学習フレームワークである、自己報酬効率RLを開発します。
複数の数学的推論ベンチマークにわたる7つのLRMバックボーンに関する広範な実験は、タスクのパフォーマンスを維持または改善しながら、この方法が推論長を大幅に削減することを示しています。
私たちの結果は、既存のモデルの本質的な機能を自己ガイド付きで活用して導くことにより、推論効率を改善できることを強調しています。

要約(オリジナル)

Recent advancements in large reasoning models (LRMs) have significantly enhanced language models’ capabilities in complex problem-solving by emulating human-like deliberative thinking. However, these models often exhibit overthinking (i.e., the generation of unnecessarily verbose and redundant content), which hinders efficiency and inflates inference cost. In this work, we explore the representational and behavioral origins of this inefficiency, revealing that LRMs inherently possess the capacity for more concise reasoning. Empirical analyses show that correct reasoning paths vary significantly in length, and the shortest correct responses often suffice, indicating untapped efficiency potential. Exploiting these findings, we propose two lightweight methods to enhance LRM efficiency. First, we introduce Efficiency Steering, a training-free activation steering technique that modulates reasoning behavior via a single direction in the model’s representation space. Second, we develop Self-Rewarded Efficiency RL, a reinforcement learning framework that dynamically balances task accuracy and brevity by rewarding concise correct solutions. Extensive experiments on seven LRM backbones across multiple mathematical reasoning benchmarks demonstrate that our methods significantly reduce reasoning length while preserving or improving task performance. Our results highlight that reasoning efficiency can be improved by leveraging and guiding the intrinsic capabilities of existing models in a self-guided manner.

arxiv情報

著者 Weixiang Zhao,Jiahe Guo,Yang Deng,Xingyu Sui,Yulin Hu,Yanyan Zhao,Wanxiang Che,Bing Qin,Tat-Seng Chua,Ting Liu
発行日 2025-06-18 17:18:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク