Bias-Augmented Consistency Training Reduces Biased Reasoning in Chain-of-Thought

要約

思考連鎖プロンプト (CoT) は、言語モデル推論の説明可能性を向上させる可能性がありますが、モデルの動作に影響を与える要因を体系的に誤って表現する可能性があります。たとえば、このバイアスに言及せずにユーザーの意見に沿って回答を合理化する可能性があります。
この偏った推論の問題を軽減するために、バイアス拡張一貫性トレーニング (BCT) を導入します。これは、バイアス特徴の有無にかかわらず、プロンプト全体で一貫した推論を提供するようにモデルをトレーニングする教師なし微調整スキームです。
私たちは、7 つの質問応答タスクで 9 つの形式の偏った推論をテストするスイートを構築しました。その結果、1 つのバイアスを使用して BCT を GPT-3.5-Turbo に適用すると、保留されたタスクで偏った推論の割合が 86% 減少することがわかりました。
さらに、このモデルは他の形態のバイアスにも一般化され、保持されたバイアスに対する偏った推論を平均 37% 削減します。
BCT は保持されたバイアスに一般化されており、ゴールド ラベルを必要としないため、この方法は、現時点では未知のバイアスによるバイアスのある推論や、グラウンド トゥルース推論の監視が利用できないタスクにおいて、偏った推論を削減する可能性があります。

要約(オリジナル)

While chain-of-thought prompting (CoT) has the potential to improve the explainability of language model reasoning, it can systematically misrepresent the factors influencing models’ behavior–for example, rationalizing answers in line with a user’s opinion without mentioning this bias. To mitigate this biased reasoning problem, we introduce bias-augmented consistency training (BCT), an unsupervised fine-tuning scheme that trains models to give consistent reasoning across prompts with and without biasing features. We construct a suite testing nine forms of biased reasoning on seven question-answering tasks, and find that applying BCT to GPT-3.5-Turbo with one bias reduces the rate of biased reasoning by 86% on held-out tasks. Moreover, this model generalizes to other forms of bias, reducing biased reasoning on held-out biases by an average of 37%. As BCT generalizes to held-out biases and does not require gold labels, this method may hold promise for reducing biased reasoning from as-of-yet unknown biases and on tasks where supervision for ground truth reasoning is unavailable.

arxiv情報

著者 James Chua,Edward Rees,Hunar Batra,Samuel R. Bowman,Julian Michael,Ethan Perez,Miles Turpin
発行日 2024-03-08 18:41:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク