How Well Can Reasoning Models Identify and Recover from Unhelpful Thoughts?

要約

最近の推論モデルは、彼らの推論を反映し、バックトラックし、自己検証する能力を示しています。これは、間違いを見つけて正確なソリューションに到達する上で重要です。
発生する自然な問題は、モデルがそのような自己評価をどのように効果的に実行できるかということです。
推論モデルが4つのタイプの役に立たない考え、疑問とは無関係の考え、質問をわずかに異なる質問と誤って指定する考え、そして誤った答えにつながる考えの4つのタイプの無益な考えからどのように識別して回復するかを調査することで、この質問に取り組みます。
モデルは、ほとんどの役に立たない思考を特定するのに効果的であるが、これらが思考プロセスに注入されたときに同じ思考から回復するのに苦労し、大幅なパフォーマンス低下を引き起こすことを示しています。
モデルは、注入された無関係な思考の推論の境界線を単純に継続する傾向があります。これは、自己再評価能力が一般的な「メタ認知的」認識とはほど遠いことを示しています。
さらに、推論を再評価するように指示された場合でも、大規模なモデルが短い無関係な思考から回復するために、より大きなモデルが小さなモデルよりも苦労している非逆スケーリングの傾向を観察します。
これらの発見の意味を、無関係な思考注入を使用した脱獄実験での意味を示します。これは、最小のモデルが有害な応答のトリガー思考によって最も気を散らすものではないことを示しています。
全体として、私たちの調査結果は、推論モデルの自己再評価の改善を求めており、より良い推論とより安全なシステムを開発しています。

要約(オリジナル)

Recent reasoning models show the ability to reflect, backtrack, and self-validate their reasoning, which is crucial in spotting mistakes and arriving at accurate solutions. A natural question that arises is how effectively models can perform such self-reevaluation. We tackle this question by investigating how well reasoning models identify and recover from four types of unhelpful thoughts: uninformative rambling thoughts, thoughts irrelevant to the question, thoughts misdirecting the question as a slightly different question, and thoughts that lead to incorrect answers. We show that models are effective at identifying most unhelpful thoughts but struggle to recover from the same thoughts when these are injected into their thinking process, causing significant performance drops. Models tend to naively continue the line of reasoning of the injected irrelevant thoughts, which showcases that their self-reevaluation abilities are far from a general ‘meta-cognitive’ awareness. Moreover, we observe non/inverse-scaling trends, where larger models struggle more than smaller ones to recover from short irrelevant thoughts, even when instructed to reevaluate their reasoning. We demonstrate the implications of these findings with a jailbreak experiment using irrelevant thought injection, showing that the smallest models are the least distracted by harmful-response-triggering thoughts. Overall, our findings call for improvement in self-reevaluation of reasoning models to develop better reasoning and safer systems.

arxiv情報

著者 Sohee Yang,Sang-Woo Lee,Nora Kassner,Daniela Gottesman,Sebastian Riedel,Mor Geva
発行日 2025-06-12 17:59:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク