The African Woman is Rhythmic and Soulful: An Investigation of Implicit Biases in LLM Open-ended Text Generation

要約

この論文では、明示的なバイアス テストに合格したにもかかわらず残る可能性のある暗黙的なバイアスに焦点を当て、大規模言語モデル (LLM) に存在する微妙でしばしば隠されたバイアスを調査します。
暗黙のバイアスは、LLM が公正に機能しているように見えても、これらのシステムによって行われる決定に影響を及ぼし、固定観念や差別を永続させる可能性があるため、重大です。
従来、バイアスを検出するには、明示的なバイアス テストまたは埋め込みベースの手法が使用されてきましたが、これらのアプローチでは、より微妙な暗黙的な形式のバイアスが見落とされる可能性があります。
これに対処するために、心理学にヒントを得た 2 つの新しい方法論を導入します。LLM 暗黙的関連付けテスト (IAT) バイアスと LLM 決定バイアスです。これらは、プロンプトベースの意思決定タスクを通じて暗黙的なバイアスを明らかにし、測定するように設計されています。
さらに、単語の生成とストーリーテリングのテーマ分析を伴うオープンエンドの生成タスクにより、モデルの動作について定性的な洞察が得られます。
私たちの調査結果は、LLM IAT バイアスが従来の方法と相関しており、LLM 決定バイアスによって測定される下流の動作をより効果的に予測し、AI システムの微妙なバイアスを検出するためのより包括的なフレームワークを提供することを示しています。
この研究は、LLM のバイアスを継続的に評価して軽減するための新しい方法を提案することで AI 倫理の分野を前進させ、これまでのアプローチでは十分に把握できなかった課題に対処するための定性的かつ意思決定に焦点を当てた評価の重要性を強調しています。

要約(オリジナル)

This paper investigates the subtle and often concealed biases present in Large Language Models (LLMs), focusing on implicit biases that may remain despite passing explicit bias tests. Implicit biases are significant because they influence the decisions made by these systems, potentially perpetuating stereotypes and discrimination, even when LLMs appear to function fairly. Traditionally, explicit bias tests or embedding-based methods are employed to detect bias, but these approaches can overlook more nuanced, implicit forms of bias. To address this, we introduce two novel psychological-inspired methodologies: the LLM Implicit Association Test (IAT) Bias and the LLM Decision Bias, designed to reveal and measure implicit biases through prompt-based and decision-making tasks. Additionally, open-ended generation tasks with thematic analysis of word generations and storytelling provide qualitative insights into the model’s behavior. Our findings demonstrate that the LLM IAT Bias correlates with traditional methods and more effectively predicts downstream behaviors, as measured by the LLM Decision Bias, offering a more comprehensive framework for detecting subtle biases in AI systems. This research advances the field of AI ethics by proposing new methods to continually assess and mitigate biases in LLMs, highlighting the importance of qualitative and decision-focused evaluations to address challenges that previous approaches have not fully captured.

arxiv情報

著者 Serene Lim,María Pérez-Ortiz
発行日 2024-09-30 16:39:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク