要約
大規模言語モデル(LLM)における明示的・暗黙的バイアスの軽減は、自然言語処理の分野において重要な焦点となっている。しかし、現在の方法論の多くは、より広い文脈や各状況における潜在的なバイアスのスペクトルを考慮することなく、シナリオを単独で評価している。この問題を解決するために、我々はSensitivity Testing on Offensive Progressions (STOP)データセットを紹介する。このデータセットには、攻撃的でないものからより明確に攻撃的なものへと段階的にエスカレートする、様々な深刻度の2,700のユニークな文章を含む450の攻撃的なプログレッションが含まれている。9つのデモグラフィックと46のサブデモグラフィックの幅広いスペクトルをカバーするSTOPは、包括性と包括的なカバレッジを保証します。GPT-4、Mixtral、Llama 3など、いくつかの主要なクローズドソースおよびオープンソースのモデルを評価した。その結果、最も性能の良いモデルでさえ、バイアスの検出には一貫性がなく、成功率は19.3%から69.8%であることが明らかになった。また、STOP上でモデルを人間の判断と整合させることで、BBQ、StereoSet、CrowS-Pairsのような敏感なタスクにおいて、性能を維持あるいは向上させながら、モデルの回答率を最大191%向上させることができることも実証した。STOPは、LLMにおけるバイアスの複雑な性質を評価するための新しいフレームワークを提示し、より効果的なバイアス緩和戦略を可能にし、より公正な言語モデルの作成を促進する。
要約(オリジナル)
Mitigating explicit and implicit biases in Large Language Models (LLMs) has become a critical focus in the field of natural language processing. However, many current methodologies evaluate scenarios in isolation, without considering the broader context or the spectrum of potential biases within each situation. To address this, we introduce the Sensitivity Testing on Offensive Progressions (STOP) dataset, which includes 450 offensive progressions containing 2,700 unique sentences of varying severity that progressively escalate from less to more explicitly offensive. Covering a broad spectrum of 9 demographics and 46 sub-demographics, STOP ensures inclusivity and comprehensive coverage. We evaluate several leading closed- and open-source models, including GPT-4, Mixtral, and Llama 3. Our findings reveal that even the best-performing models detect bias inconsistently, with success rates ranging from 19.3% to 69.8%. We also demonstrate how aligning models with human judgments on STOP can improve model answer rates on sensitive tasks such as BBQ, StereoSet, and CrowS-Pairs by up to 191%, while maintaining or even improving performance. STOP presents a novel framework for assessing the complex nature of biases in LLMs, which will enable more effective bias mitigation strategies and facilitates the creation of fairer language models.
arxiv情報
著者 | Robert Morabito,Sangmitra Madhusudan,Tyler McDonald,Ali Emami |
発行日 | 2025-02-03 18:06:34+00:00 |
arxivサイト | arxiv_id(pdf) |