要約
開発者によるGuardRailsの実装により、大規模な言語モデル(LLM)は、明示的なバイアステストで例外的なパフォーマンスを実証しています。
ただし、LLMのバイアスは、明示的にだけでなく、暗黙的にも、暗黙的に努力しているが、それでも暗黙のバイアスを抱いている人間と同じように発生する可能性があります。
暗黙のバイアスの無意識で自動的な性質により、勉強するのは特に困難です。
このペーパーでは、LLMSの暗黙的バイアスに関する既存の文献の包括的なレビューを提供します。
まず、心理学における暗黙のバイアスに関連する重要な概念、理論、および方法を導入し、それらを人間からLLMに拡張することから始めます。
暗黙的な関連性テスト(IAT)およびその他の心理的枠組みに基づいて、検出方法を3つの主要なアプローチ、ワード関連、タスク指向のテキスト生成、意思決定の3つの主要なアプローチに分類します。
暗黙のバイアスのための評価メトリックの分類法を、単一値ベースのメトリックと比較価値ベースのメトリックの2つのカテゴリに分けます。
データセットを2つのタイプに分類します。マスクされたトークンと完全な文を使用した文で、LLMの広範なアプリケーションを反映するためにさまざまなドメインのデータセットを組み込みます。
LLMSにおける暗黙のバイアスの緩和に関する研究はまだ限られていますが、既存の努力を要約し、将来の課題に関する洞察を提供します。
この作業は、研究者のための明確なガイドとして機能し、革新的なアイデアを刺激して、このタスクの探索を促進することを目指しています。
要約(オリジナル)
Due to the implement of guardrails by developers, Large language models (LLMs) have demonstrated exceptional performance in explicit bias tests. However, bias in LLMs may occur not only explicitly, but also implicitly, much like humans who consciously strive for impartiality yet still harbor implicit bias. The unconscious and automatic nature of implicit bias makes it particularly challenging to study. This paper provides a comprehensive review of the existing literature on implicit bias in LLMs. We begin by introducing key concepts, theories and methods related to implicit bias in psychology, extending them from humans to LLMs. Drawing on the Implicit Association Test (IAT) and other psychological frameworks, we categorize detection methods into three primary approaches: word association, task-oriented text generation and decision-making. We divide our taxonomy of evaluation metrics for implicit bias into two categories: single-value-based metrics and comparison-value-based metrics. We classify datasets into two types: sentences with masked tokens and complete sentences, incorporating datasets from various domains to reflect the broad application of LLMs. Although research on mitigating implicit bias in LLMs is still limited, we summarize existing efforts and offer insights on future challenges. We aim for this work to serve as a clear guide for researchers and inspire innovative ideas to advance exploration in this task.
arxiv情報
著者 | Xinru Lin,Luyang Li |
発行日 | 2025-03-04 16:49:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google