要約
チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、モデルがプロンプトの明示的なバイアスに直面している場合、COTの推論は必ずしも忠実ではないことが示されています。つまり、COTは、モデルが結論に到達する方法の誤った画像を与えることができます。
さらに進んで、人工的なバイアスのない現実的なプロンプトで不誠実なベッドも発生する可能性があることを示します。
質問が個別に提示されたとき、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問にyesを体系的にnoに回答するか、両方の質問にyを正当化することを正当化するために表面的に一貫した議論を生成することがあります。
これは、モデルの暗黙のバイアスが「はい」または「いいえ」に対する暗黙のバイアスによるものであるという予備的な証拠を示します。したがって、この不誠実さは暗黙の事後合理化としてラベル付けされています。
我々の結果は、いくつかの生産モデルが、GPT-4O-MINI(13%)とHaiku 3.5(7%)で驚くほど高い率の事後合理化率を示すことを明らかにしています。
フロンティアモデルはより忠実であり、特に思考のモデルは、完全に忠実ではありません。ジェミニ2.5フラッシュ(2.17%)、ChatGPT-4O(0.49%)、Deepseek R1(0.37%)、Gemini 2.5 Pro(0.14%)、Sonnet 3.7は思考(0.04%)です。
また、モデルが微妙に非論理的な推論を使用して、厳しい数学の問題に対する投機的な答えを作成しようとする不誠実な非論理的なショートカットを調査します。
私たちの調査結果は、思考の連鎖を介してLLMSの望ましくない行動を検出するための戦略の課題を引き起こします。
要約(オリジナル)
Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful when models face an explicit bias in their prompts, i.e., the CoT can give an incorrect picture of how models arrive at conclusions. We go further and show that unfaithful CoT can also occur on realistic prompts with no artificial bias. We find that when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify systematically answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We show preliminary evidence that this is due to models’ implicit biases towards Yes or No, thus labeling this unfaithfulness as Implicit Post-Hoc Rationalization. Our results reveal that several production models exhibit surprisingly high rates of post-hoc rationalization in our settings: GPT-4o-mini (13%) and Haiku 3.5 (7%). While frontier models are more faithful, especially thinking ones, none are entirely faithful: Gemini 2.5 Flash (2.17%), ChatGPT-4o (0.49%), DeepSeek R1 (0.37%), Gemini 2.5 Pro (0.14%), and Sonnet 3.7 with thinking (0.04%). We also investigate Unfaithful Illogical Shortcuts, where models use subtly illogical reasoning to try to make a speculative answer to hard maths problems seem rigorously proven. Our findings raise challenges for strategies for detecting undesired behavior in LLMs via the chain of thought.
arxiv情報
著者 | Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy |
発行日 | 2025-06-17 17:59:57+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google