Prompting Techniques for Reducing Social Bias in LLMs through System 1 and System 2 Cognitive Processes

要約

二重プロセス理論では、人間の認知は 2 つのシステムを介して生じると仮定しています。
システム 1 は、認知バイアスの影響を受けやすい、迅速で感情的かつ直観的なプロセスであり、システム 2 は、時間がかかり、面倒で計画的なプロセスです。
NLP 研究者は、LLM でのゼロショット プロンプトをシステム 1 推論と比較し、思考連鎖 (CoT) プロンプトをシステム 2 と比較することがよくあります。この解釈と一致して、先行研究では、LLM で CoT プロンプトを使用すると、ジェンダー バイアスの軽減につながることがわかっています。
私たちは、LLM におけるバイアス、CoT プロンプティング、および二重プロセス理論の間の関係を直接調査します。
9 つの異なる社会バイアス カテゴリにわたる 2 つのバイアス データセットについて、ゼロショット、CoT、および二重プロセス理論に基づくさまざまなプロンプト戦略を比較します。
また、人間とマシンのペルソナを使用して、LLM における二重プロセス理論の効果が人間の認知のモデリングに基づいているのか、それともシステムに固有のものなのかを判断します。
人間のペルソナ、システム 2、および CoT プロンプトはすべて、LLM の社会的バイアスを軽減する傾向があることがわかりました。ただし、機能の最適な組み合わせは正確なモデルとバイアス カテゴリによって異なります。その結果、固定観念的な判断が最大 13% 低下します。
LLM。

要約(オリジナル)

Dual process theory posits that human cognition arises via two systems. System 1, which is a quick, emotional, and intuitive process, which is subject to cognitive biases, and System 2, a slow, onerous, and deliberate process. NLP researchers often compare zero-shot prompting in LLMs to System 1 reasoning and chain-of-thought (CoT) prompting to System 2. In line with this interpretation, prior research has found that using CoT prompting in LLMs leads to reduced gender bias. We investigate the relationship between bias, CoT prompting, and dual process theory in LLMs directly. We compare zero-shot, CoT, and a variety of dual process theory-based prompting strategies on two bias datasets spanning nine different social bias categories. We also use human and machine personas to determine whether the effects of dual process theory in LLMs are based on modeling human cognition or inherent to the system. We find that a human persona, System 2, and CoT prompting all tend to reduce social biases in LLMs, though the best combination of features depends on the exact model and bias category — resulting in up to a 13 percent drop in stereotypical judgments by an LLM.

arxiv情報

著者 Mahammed Kamruzzaman,Gene Louis Kim
発行日 2024-04-26 07:46:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク