Optimizing Length Compression in Large Reasoning Models

要約

大規模な推論モデル(LRM)は驚くべき成功を収めていますが、しばしば不必要で冗長な推論チェーンの生産に苦しんでいます。
この問題の中心的な側面を「無効な思考」として特定します。モデルは、正解を導き出した後、作業を​​繰り返し再確認する傾向があります。
この特定の非効率性に対処するために、有効性と効率の一般原則を超えて、2つの新しい細粒の原則を提案するために移動します。これは、冗長性を排除することを提唱するBrevityと、重要な推論ステップが保持されることを保証します。
これらの原則に導かれて、グループ相対政策最適化(GRPO)に基づくトレーニング後の方法であるLC-R1を紹介します。
LC-R1は、全体的な簡潔さに対する長さの報酬の新しい組み合わせと、思考プロセスの無効な部分を除去するように特別に設計された圧縮報酬を採用しています。
複数の推論ベンチマークでの広範な実験は、LC-R1が精度がわずか(〜2%)の低下でのみ順序長(〜50%)の大幅な減少を達成し、高圧縮を優先するパレートフロンティアで好ましいトレードオフポイントを達成することを示しています。
私たちの分析は、LC-R1の堅牢性をさらに検証し、より強力でありながら計算効率の高いLRMを開発するための貴重な洞察を提供します。
私たちのコードはhttps://github.com/zxiangx/lc-r1でリリースされています。

要約(オリジナル)

Large Reasoning Models (LRMs) have achieved remarkable success, yet they often suffer from producing unnecessary and verbose reasoning chains. We identify a core aspect of this issue as ‘invalid thinking’ — models tend to repeatedly double-check their work after having derived the correct answer. To address this specific inefficiency, we move beyond the general principles of Efficacy and Efficiency to propose two new, fine-grained principles: Brevity, which advocates for eliminating redundancy, and Sufficiency, which ensures critical reasoning steps are preserved. Guided by these principles, we introduce LC-R1, a post-training method based on Group Relative Policy Optimization (GRPO). LC-R1 employs a novel combination of a Length Reward for overall conciseness and a Compress Reward that is specifically designed to remove the invalid portion of the thinking process. Extensive experiments on multiple reasoning benchmarks demonstrate that LC-R1 achieves a significant reduction in sequence length (~50%) with only a marginal (~2%) drop in accuracy, achieving a favorable trade-off point on the Pareto frontier that prioritizes high compression. Our analysis further validates the robustness of LC-R1 and provides valuable insights for developing more powerful yet computationally efficient LRMs. Our code is released at https://github.com/zxiangx/LC-R1.

arxiv情報

著者 Zhengxiang Cheng,Dongping Chen,Mingyang Fu,Tianyi Zhou
発行日 2025-06-17 17:50:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク