SEAL: Steerable Reasoning Calibration of Large Language Models for Free

要約

OpenaiのO1シリーズなどの大規模な言語モデル(LLM)は、拡張されたチェーン(COT)推論メカニズムを介した複雑な推論タスクの説得力のある機能を実証しています。
しかし、最近の研究では、COTの推論痕跡における実質的な冗長性が明らかになります。これは、推論の潜在性を高めるだけでなく、不必要な推論パスに注意をそらすことでモデルのパフォーマンスに悪影響を与えます。
この問題に対処するために、LLMの内部推論構造を調査し、それらを実行、反射、および遷移思考の3つの主要な思考タイプに分類します。
さらに、私たちの分析では、過度の反射と遷移の思考が故障の場合と強く相関していることが明らかになり、これらの思考カテゴリは潜在空間で明確な分離を示すことが明らかになりました。
これらに基づいて、シール(操縦可能な推論キャリブレーション)を導入します。これは、COTプロセスをシームレスにキャリブレーションするトレーニングフリーのアプローチであり、有意な効率の向上を実証しながら精度を向上させます。
シールは、潜在空間で推論ステアリングベクトルを抽出するためのオフラインステージで構成され、その後、ステアリングベクトルを使用した表現介入を通じて推論トレースのオンザフライキャリブレーションが続きます。
特に、ステアリングベクターは、さまざまなタスクにわたって強い転送可能性を示しています。
複数のモデル(DeepSeek-R1-DistillおよびQWQ-32B-Preview)およびベンチマーク(Math500、GSM8K、LiveCodebench)にわたる広範な実験は、シールの有効性を検証し、推論トークンを11.8%から50.4%減らしながら、最大11%改善します。
私たちのコードは、https://github.com/vita-group/sealで公開されています。

要約(オリジナル)

Large Language Models (LLMs), such as OpenAI’s o1-series have demonstrated compelling capabilities for complex reasoning tasks via the extended chain-of-thought (CoT) reasoning mechanism. However, recent studies reveal substantial redundancy in the CoT reasoning traces, which not only increases inference latency but also negatively impacts model performance by diverting attention to unnecessary reasoning paths. To address this issue, we investigate the internal reasoning structures of LLMs and categorize them into three primary thought types: execution, reflection, and transition thoughts. Moreover, our analysis reveals that excessive reflection and transition thoughts are strongly correlated with failure cases and these thought categories exhibit clear separation in the latent space. Based on these, we introduce SEAL (Steerable reasoning calibration), a training-free approach that seamlessly calibrates the CoT process, improving accuracy while demonstrating significant efficiency gains. SEAL consists of an offline stage for extracting the reasoning steering vector in the latent space, followed by an on-the-fly calibration of the reasoning trace through representation intervention using the steering vector. Notably, the steering vector exhibits strong transferability across various tasks. Extensive experiments across multiple models (DeepSeek-R1-Distill and QwQ-32B-Preview) and benchmarks (Math500, GSM8K, LiveCodeBench) validate the effectiveness of SEAL, up to a 11% improvement in accuracy while reducing reasoning tokens by 11.8% to 50.4%. Our code is publicly available at https://github.com/VITA-Group/SEAL.

arxiv情報

著者 Runjin Chen,Zhenyu Zhang,Junyuan Hong,Souvik Kundu,Zhangyang Wang
発行日 2025-05-06 08:30:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク