Mind vs. Mouth: On Measuring Re-judge Inconsistency of Social Bias in Large Language Models

要約

最近の研究では、事前トレーニング済み大規模言語モデル (LLM) が人間で観察されるものと同様の認知構造を持っていることが示されており、研究者は LLM の認知的側面を調査するよう促されています。
この論文は、心理学における独特の 2 レベルの認知構造である明示的および暗黙的な社会的バイアスに焦点を当てています。
個人の明示的な社会的偏見(発言における偏見の意識的な表現)は、無意識の偏見を表す暗黙的な社会的偏見とは異なる可能性があると主張しています。
我々は 2 段階のアプローチを提案し、社会的偏見における「再判断の不一致」として知られる LLM の並行現象を発見しました。
初期段階では、LLM はステートメントを自動的に完成させる任務を負っており、暗黙的な社会的偏見が組み込まれている可能性があります。
しかし、その後の段階で、同じLLMは、自身が生成した偏ったステートメントを再判断しますが、それは矛盾しています。
私たちは、この再判断の矛盾は、人間の無意識の暗黙的な社会的偏見と、人間が意識している明示的な社会的偏見との間の矛盾に似ている可能性があると提案します。
心理学で調査された一般的なジェンダーバイアスに関するChatGPTとGPT-4の実験調査は、再判断の不一致の非常に安定した性質を裏付けています。
この発見は、LLM の能力が強化されるにつれて、多様な認知構造が出現することを示唆している可能性があります。
したがって、心理理論を活用すると、LLM の明示的および暗黙的な構成の表現を支配する基礎的なメカニズムについての洞察が強化されます。

要約(オリジナル)

Recent researches indicate that Pre-trained Large Language Models (LLMs) possess cognitive constructs similar to those observed in humans, prompting researchers to investigate the cognitive aspects of LLMs. This paper focuses on explicit and implicit social bias, a distinctive two-level cognitive construct in psychology. It posits that individuals’ explicit social bias, which is their conscious expression of bias in the statements, may differ from their implicit social bias, which represents their unconscious bias. We propose a two-stage approach and discover a parallel phenomenon in LLMs known as ‘re-judge inconsistency’ in social bias. In the initial stage, the LLM is tasked with automatically completing statements, potentially incorporating implicit social bias. However, in the subsequent stage, the same LLM re-judges the biased statement generated by itself but contradicts it. We propose that this re-judge inconsistency can be similar to the inconsistency between human’s unaware implicit social bias and their aware explicit social bias. Experimental investigations on ChatGPT and GPT-4 concerning common gender biases examined in psychology corroborate the highly stable nature of the re-judge inconsistency. This finding may suggest that diverse cognitive constructs emerge as LLMs’ capabilities strengthen. Consequently, leveraging psychological theories can provide enhanced insights into the underlying mechanisms governing the expressions of explicit and implicit constructs in LLMs.

arxiv情報

著者 Yachao Zhao,Bo Wang,Dongming Zhao,Kun Huang,Yan Wang,Ruifang He,Yuexian Hou
発行日 2023-08-24 05:35:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク