Steering LLMs Towards Unbiased Responses: A Causality-Guided Debiasing Framework

要約

大規模言語モデル (LLM) は、偏った差別的な応答を簡単に生成する可能性があります。
LLM は結果的な意思決定 (雇用や医療など) に関与するため、これらのバイアスを軽減する戦略を開発することが非常に重要です。
この論文は社会的バイアスに焦点を当て、人口統計情報と LLM の出力との関連に取り組みます。
我々は、(1) LLM に供給されるトレーニング コーパスのデータ生成プロセス、および (2) LLM 推論の内部推論プロセスの因果的理解を利用して、LLM のバイアスを軽減するためのプロンプトの設計をガイドする、因果関係に基づくバイアス軽減フレームワークを提案します。
選択メカニズムを通じて出力します。
私たちのフレームワークは、抑制的な指示や文脈内の対照的な例などの既存のバイアス解除を促すアプローチを統合し、バイアスのない推論を促進することによってバイアスを解除する新しい方法に光を当てます。
実世界のデータセットに対する当社の強力な経験的パフォーマンスは、当社のフレームワークが、ブラックボックス アクセスのみでも LLM 出力のバイアスを軽減するための原則に基づいたガイドラインを提供していることを示しています。

要約(オリジナル)

Large language models (LLMs) can easily generate biased and discriminative responses. As LLMs tap into consequential decision-making (e.g., hiring and healthcare), it is of crucial importance to develop strategies to mitigate these biases. This paper focuses on social bias, tackling the association between demographic information and LLM outputs. We propose a causality-guided debiasing framework that utilizes causal understandings of (1) the data-generating process of the training corpus fed to LLMs, and (2) the internal reasoning process of LLM inference, to guide the design of prompts for debiasing LLM outputs through selection mechanisms. Our framework unifies existing de-biasing prompting approaches such as inhibitive instructions and in-context contrastive examples, and sheds light on new ways of debiasing by encouraging bias-free reasoning. Our strong empirical performance on real-world datasets demonstrates that our framework provides principled guidelines on debiasing LLM outputs even with only the black-box access.

arxiv情報

著者 Jingling Li,Zeyu Tang,Xiaoyu Liu,Peter Spirtes,Kun Zhang,Liu Leqi,Yang Liu
発行日 2024-03-13 17:46:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク