Reasoning Beyond Bias: A Study on Counterfactual Prompting and Chain of Thought Reasoning

要約

言語モデルはトレーニング データからバイアスを吸収し、意味的な関連性ではなく統計的な規則性によって予測が行われることが知られています。
私たちは、Massive Multi-Task Language Understanding (MMLU) タスクにおける回答選択の好みに対するこれらのバイアスの影響を調査します。
私たちの調査結果は、回答の選択肢ごとに学習された規則性の違いがモデルの好みを予測し、人間の受験戦略を反映していることを明らかにしました。
この問題に対処するために、思考連鎖による反事実プロンプティング (CoT) と不可知論的にプライムされた CoT (APriCoT) による反事実プロンプティングの 2 つの新しい方法を導入します。
CoTを使用した反事実プロンプティングだけではバイアスを軽減するには不十分である一方、CoTを使用した新しいプライミング反事実プロンプティングアプローチは、全体の精度を向上させながら基本レートの確率の影響を効果的に低減することを実証します。
私たちの結果は、バイアスを軽減するには「システム 2」のようなプロセスが必要であり、CoT 推論はいくつかの促進方法論の下では確証バイアスの影響を受けやすいことを示唆しています。
私たちの貢献は、より堅牢で公平な言語モデルを開発するための実用的なソリューションを提供します。

要約(オリジナル)

Language models are known to absorb biases from their training data, leading to predictions driven by statistical regularities rather than semantic relevance. We investigate the impact of these biases on answer choice preferences in the Massive Multi-Task Language Understanding (MMLU) task. Our findings reveal that differences in learned regularities across answer options are predictive of model preferences and mirror human test-taking strategies. To address this issue, we introduce two novel methods: Counterfactual Prompting with Chain of Thought (CoT) and Counterfactual Prompting with Agnostically Primed CoT (APriCoT). We demonstrate that while Counterfactual Prompting with CoT alone is insufficient to mitigate bias, our novel Primed Counterfactual Prompting with CoT approach effectively reduces the influence of base-rate probabilities while improving overall accuracy. Our results suggest that mitigating bias requires a ‘System-2’ like process and that CoT reasoning is susceptible to confirmation bias under some prompting methodologies. Our contributions offer practical solutions for developing more robust and fair language models.

arxiv情報

著者 Kyle Moore,Jesse Roberts,Thao Pham,Douglas Fisher
発行日 2024-08-16 10:34:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク