Bias Runs Deep: Implicit Reasoning Biases in Persona-Assigned LLMs

要約

最近の研究では、大規模言語モデル (LLM) が、「あなたはヨーダです」などのプロンプトに代表される、応答の中で多様なペルソナを具体化する能力を実証しています。
相対性理論を説明してください。』
この機能により LLM のパーソナライズが可能になり、人間の行動のシミュレーションが可能になりますが、LLM の機能に対する影響はまだ不明です。
このギャップを埋めるために、LLM、特に ChatGPT の基本的な推論タスクを実行する能力に対する、ペルソナ割り当ての意図しない副作用に関する最初の広範な研究を紹介します。
私たちの研究では、人種、性別、宗教、障害、所属政党といった 5 つの社会人口統計グループにまたがる 24 の推論データセットと 16 の多様なペルソナを対象としています。
私たちの実験では、ChatGPT が表面上の公平性の下で、さまざまな社会人口統計に対して根深い偏見を持っていることが明らかになりました。
明確に質問された場合(「黒人は数学が苦手ですか?」など)、ステレオタイプをあからさまに拒否しますが、ペルソナを引き受けながら質問に答えるように促されると、ステレオタイプでしばしば誤った思い込みを明らかにします。
これらは、モデル応答における棄権として観察できます (例: 「黒人として、この質問には数学の知識が必要なので答えることができません」)。一般に、推論タスクのパフォーマンスが大幅に低下します。
この固有の深い偏見が遍在していることがわかりました。ペルソナの 80% が偏見を示しました。
これは重要です。特定のデータセットでは相対的にパフォーマンスが 70% 以上低下しました。
そして特定のグループにとっては特に有害になる可能性があります – 特定のペルソナにはステータスがありました。
サイン。
データセットの 80% 以上でドロップします。
さらなる分析により、これらのペルソナによって引き起こされるエラーは、見分けるのが難しく、回避するのが難しい場合があることが示されています。
私たちの調査結果は、増加傾向にある LLM にペルソナを割り当てる慣行が、LLM の根深い偏見を表面化し、予期せぬ有害な副作用を引き起こす可能性があるという警告として役立ちます。

要約(オリジナル)

Recent works have showcased the ability of large-scale language models (LLMs) to embody diverse personas in their responses, exemplified by prompts like ‘You are Yoda. Explain the Theory of Relativity.’ While this ability allows personalization of LLMs and enables human behavior simulation, its effect on LLMs’ capabilities remain unclear. To fill this gap, we present the first extensive study of the unintended side-effects of persona assignment on the ability of LLMs, specifically ChatGPT, to perform basic reasoning tasks. Our study covers 24 reasoning datasets and 16 diverse personas spanning 5 socio-demographic groups: race, gender, religion, disability, and political affiliation. Our experiments unveil that ChatGPT carries deep rooted bias against various socio-demographics underneath a veneer of fairness. While it overtly rejects stereotypes when explicitly asked (‘Are Black people less skilled at mathematics?’), it manifests stereotypical and often erroneous presumptions when prompted to answer questions while taking on a persona. These can be observed as abstentions in the model responses, e.g., ‘As a Black person, I am unable to answer this question as it requires math knowledge’, and generally result in a substantial drop in performance on reasoning tasks. We find that this inherent deep bias is ubiquitous – 80% of our personas demonstrated bias; it is significant – certain datasets had relative drops in performance of 70%+; and can be especially harmful for certain groups – certain personas had stat. sign. drops on more than 80% of the datasets. Further analysis shows that these persona-induced errors can be hard-to-discern and hard-to-avoid. Our findings serve as a cautionary tale that the practice of assigning personas to LLMs – a trend on the rise – can surface their deep-rooted biases and have unforeseeable and detrimental side-effects.

arxiv情報

著者 Shashank Gupta,Vaishnavi Shrivastava,Ameet Deshpande,Ashwin Kalyan,Peter Clark,Ashish Sabharwal,Tushar Khot
発行日 2023-11-08 18:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク