Effectively Controlling Reasoning Models through Thinking Intervention

要約

推論強化された大手言語モデル(LLMS)は、最終回答を生成する前に中間推論ステップを明示的に生成し、モデルが複雑な問題解決に優れているのを助けます。
この論文では、この新たな世代フレームワークがモデルの動作をより細かく制御するためのユニークな機会を提供することを実証します。
特定の思考トークンを戦略的に挿入または改訂することにより、LLMの内部推論プロセスを明示的に導くように設計された新しいパラダイムであるThinking Interventionを提案します。
IFEVAL、SEPの命令階層、XSTESTおよびSORRY-BENCHでの安全アライメントをフォローする命令など、複数のタスクで包括的な評価を実施します。
我々の結果は、思考介入がベースラインのプロンプトアプローチを大幅に上回ることを示しています。アプローチの促進、命令フォローのシナリオで最大6.7%の精度の向上、命令階層に関する推論の15.4%の改善、およびオープンソースディープシークR1モデルを使用した不安定なプロンプトの拒否率の40.0%の増加が得られます。
全体として、私たちの仕事は、LLMSを推論するための有望な新しい研究手段を開きます。

要約(オリジナル)

Reasoning-enhanced large language models (LLMs) explicitly generate intermediate reasoning steps prior to generating final answers, helping the model excel in complex problem-solving. In this paper, we demonstrate that this emerging generation framework offers a unique opportunity for more fine-grained control over model behavior. We propose Thinking Intervention, a novel paradigm designed to explicitly guide the internal reasoning processes of LLMs by strategically inserting or revising specific thinking tokens. We conduct comprehensive evaluations across multiple tasks, including instruction following on IFEval, instruction hierarchy on SEP, and safety alignment on XSTest and SORRY-Bench. Our results demonstrate that Thinking Intervention significantly outperforms baseline prompting approaches, achieving up to 6.7% accuracy gains in instruction-following scenarios, 15.4% improvements in reasoning about instruction hierarchies, and a 40.0% increase in refusal rates for unsafe prompts using open-source DeepSeek R1 models. Overall, our work opens a promising new research avenue for controlling reasoning LLMs.

arxiv情報

著者 Tong Wu,Chong Xiang,Jiachen T. Wang,Prateek Mittal
発行日 2025-03-31 17:50:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク