要約
大規模な言語モデルは、チェーンオブシャーチ(COT)を活用して複雑なタスクを促しますが、その推論の痕跡はしばしば過度に冗長で非効率的であり、大幅な計算コストと遅延につながります。
現在のCOT圧縮技術は、通常、一般的な重要性メトリックと静的圧縮速度に依存しています。
これらの制限を克服するために、監視付きの微調整を介して動的なCOT圧縮を学習する新しいフレームワークであるAdaptive Gogi-Skipを提案します。
このアプローチでは、2つの相乗的イノベーションを導入します。(1)目標勾配の重要性(GOGI)、最終回答損失に対する中間表現の勾配的影響を測定することにより、機能的に関連するトークンを正確に識別する新しいメトリック、および(2)アダプティブダイナミックスキップ(ADS)、ランタイムモデルのconstriventive nectoringを介して動的に制御されるメカニズムが動的に制御されます。
私たちの知る限り、これは、コット圧縮のための動的で不確実なスキップのスキップを備えた目標指向のグラデーションベースの重要性メトリックを統一する最初の作業です。
圧縮された数学データでトレーニングされたAdaptive Gogi-Skipは、AIME、GPQA、GSM8Kなどの多様な推論ベンチマーク全体で強力なクロスドメインの一般化を示しています。
それはかなりの効率性の向上を達成します – コットトークンカウントを平均で45%以上削減し、1.6-2.0倍の推論スピードアップを提供し、高い推論の精度を維持します。
特に、効果的な圧縮速度が高い場合でも精度を維持することにより、既存のベースラインを大幅に上回り、COTの推論効率 – アクセラシーのトレードオフの最先端を進めています。
要約(オリジナル)
Large Language Models leverage Chain-of-Thought (CoT) prompting for complex tasks, but their reasoning traces are often excessively verbose and inefficient, leading to significant computational costs and latency. Current CoT compression techniques typically rely on generic importance metrics and static compression rates, which may inadvertently remove functionally critical tokens or fail to adapt to varying reasoning complexity. To overcome these limitations, we propose Adaptive GoGI-Skip, a novel framework learning dynamic CoT compression via supervised fine-tuning. This approach introduces two synergistic innovations: (1) Goal-Gradient Importance (GoGI), a novel metric accurately identifying functionally relevant tokens by measuring the gradient influence of their intermediate representations on the final answer loss, and (2) Adaptive Dynamic Skipping (ADS), a mechanism dynamically regulating the compression rate based on runtime model uncertainty while ensuring local coherence through an adaptive N-token constraint. To our knowledge, this is the first work unifying a goal-oriented, gradient-based importance metric with dynamic, uncertainty-aware skipping for CoT compression. Trained on compressed MATH data, Adaptive GoGI-Skip demonstrates strong cross-domain generalization across diverse reasoning benchmarks including AIME, GPQA, and GSM8K. It achieves substantial efficiency gains – reducing CoT token counts by over 45% on average and delivering 1.6-2.0 times inference speedups – while maintaining high reasoning accuracy. Notably, it significantly outperforms existing baselines by preserving accuracy even at high effective compression rates, advancing the state of the art in the CoT reasoning efficiency-accuracy trade-off.
arxiv情報
著者 | Ren Zhuang,Ben Wang,Shuifa Sun |
発行日 | 2025-05-13 09:39:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google