Chain-of-Thought Reasoning In The Wild Is Not Always Faithful

要約

チェーンオブシャーチ(COT)の推論は、最先端のAI機能を大幅に進めています。
しかし、最近の研究では、COTの推論が必ずしも忠実ではないことが示されています。つまり、COTの推論は、モデルが結論に到達する方法を常に反映しているとは限りません。
これまでのところ、これらの研究のほとんどは、明示的なバイアスが導入された不自然な文脈の不誠実さに焦点を合わせてきました。
対照的に、人工的なバイアスのない現実的なプロンプトで不忠実なベッドが発生する可能性があることを示します。
我々の結果は、フロンティアモデルのいくつかの形態の不誠実な推論の割合に関する割合に関することを明らかにしました:Sonnet 3.7(30.6%)、Deepseek R1(15.8%)、ChatGPT-4o(12.6%)はすべて、質問のペアのペアの高い割合に答えます。
具体的には、モデルはバイナリ質問に対する回答(「暗黙の事後合理化」)で暗黙のバイアスを合理化することがわかります。
たとえば、質問を個別に提示した場合、「xはyよりも大きいですか?」
そして、「yはxよりも大きいですか?」、モデルは時々、このような回答が論理的に矛盾しているにもかかわらず、両方の質問に「はい」との回答を正当化するか、両方の質問にnoに答えることを正当化することがあります。
また、復元エラー(Dziri et al。、2023)を調査します。ここでは、モデルが推論で誤ったエラーを作成し、その後黙って修正します。また、モデルはパトナムの質問の解決を簡素化するために明らかに非論理的推論を使用します(ハードベンチマーク)。
私たちの調査結果は、COTの監視に依存して、望ましくない動作を検出することに依存しているAIの安全作業の課題を引き起こします。

要約(オリジナル)

Chain-of-Thought (CoT) reasoning has significantly advanced state-of-the-art AI capabilities. However, recent studies have shown that CoT reasoning is not always faithful, i.e. CoT reasoning does not always reflect how models arrive at conclusions. So far, most of these studies have focused on unfaithfulness in unnatural contexts where an explicit bias has been introduced. In contrast, we show that unfaithful CoT can occur on realistic prompts with no artificial bias. Our results reveal concerning rates of several forms of unfaithful reasoning in frontier models: Sonnet 3.7 (30.6%), DeepSeek R1 (15.8%) and ChatGPT-4o (12.6%) all answer a high proportion of question pairs unfaithfully. Specifically, we find that models rationalize their implicit biases in answers to binary questions (‘implicit post-hoc rationalization’). For example, when separately presented with the questions ‘Is X bigger than Y?’ and ‘Is Y bigger than X?’, models sometimes produce superficially coherent arguments to justify answering Yes to both questions or No to both questions, despite such responses being logically contradictory. We also investigate restoration errors (Dziri et al., 2023), where models make and then silently correct errors in their reasoning, and unfaithful shortcuts, where models use clearly illogical reasoning to simplify solving problems in Putnam questions (a hard benchmark). Our findings raise challenges for AI safety work that relies on monitoring CoT to detect undesired behavior.

arxiv情報

著者 Iván Arcuschin,Jett Janiak,Robert Krzyzanowski,Senthooran Rajamanoharan,Neel Nanda,Arthur Conmy
発行日 2025-03-11 17:56:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク