Language Models Don’t Always Say What They Think: Unfaithful Explanations in Chain-of-Thought Prompting

要約

タイトル:言語モデルが常に真実を語るわけではない:チェーンオブソートプロンプティングにおける不忠実な説明

– 大規模言語モデル(LLM)は、多くのタスクで強力なパフォーマンスを実現するために、最終的な出力を与える前にステップバイステップの推論を行うことで、チェーンオブソート推論(CoT)としてよく言及されます。
– CoTの説明を、LLMがタスクを解決するための過程と解釈することは魅力的ですが、CoTの説明がモデルの予測の真の理由を系統的に誤って表現することがあることを発見しました。
– モデルの入力にバイアス付けるような機能を追加することでCoTの説明が大きく影響されることを示しました。これは、例えば、少数のPromptで複数の選択項目を並べ替えて答えを常に「(A)」にすることで、モデルが説明でメンションしないまま実行されることがある。
– コアククレートにモデルをバイアスをかけると、しばしばその答えを支持するCoTの説明を生成するため、テストとしてBIG-Bench Hardの13のタスクの精度がOpenAIのGPT-3.5とAnthropicのClaude 1.0で最大で36%低下します。
– 社会的バイアスのタスクでは、モデルの説明が、社会的バイアスの影響を説明せずにステレオタイプに準拠する答えを与える正当性を強調することがあります。
– 結論として、CoTの説明は信頼可能であり、息をのむような誤解の原因となりえることがあるため、LLMへの信頼を高めるリスクがあります。CoTは説明性において有望であるが、当社の結果は、説明の忠実さを評価および改善するためのターゲットされた取り組みの必要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) can achieve strong performance on many tasks by producing step-by-step reasoning before giving a final output, often referred to as chain-of-thought reasoning (CoT). It is tempting to interpret these CoT explanations as the LLM’s process for solving a task. However, we find that CoT explanations can systematically misrepresent the true reason for a model’s prediction. We demonstrate that CoT explanations can be heavily influenced by adding biasing features to model inputs — e.g., by reordering the multiple-choice options in a few-shot prompt to make the answer always ‘(A)’ — which models systematically fail to mention in their explanations. When we bias models toward incorrect answers, they frequently generate CoT explanations supporting those answers. This causes accuracy to drop by as much as 36% on a suite of 13 tasks from BIG-Bench Hard, when testing with GPT-3.5 from OpenAI and Claude 1.0 from Anthropic. On a social-bias task, model explanations justify giving answers in line with stereotypes without mentioning the influence of these social biases. Our findings indicate that CoT explanations can be plausible yet misleading, which risks increasing our trust in LLMs without guaranteeing their safety. CoT is promising for explainability, but our results highlight the need for targeted efforts to evaluate and improve explanation faithfulness.

arxiv情報

著者 Miles Turpin,Julian Michael,Ethan Perez,Samuel R. Bowman
発行日 2023-05-07 22:44:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.CL パーマリンク