FLEX: A Benchmark for Evaluating Robustness of Fairness in Large Language Models

要約

大規模な言語モデル(LLMS)の最近の進歩により、ユーザーとモデル間の相互作用が大幅に強化されています。
これらの進歩は、社会的バイアスの現れによる厳格な安全評価の必要性を同時に強調しており、それが有害な社会的影響につながる可能性があります。
これらの懸念にもかかわらず、既存のベンチマークは、LLMSの本質的な弱点を見落とす可能性があり、単純な敵対的な指示でさえ偏った応答を生成する可能性があります。
このクリティカルギャップに対処するために、LLMがバイアスを誘導するために構築されたプロンプトにさらされた場合でも公平性を維持できるかどうかをテストするために設計された、極端なシナリオ(FLEX)の下で、LLMの新しいベンチマーク、LLMのベンチマークを導入します。
LLMSの堅牢性を徹底的に評価するために、潜在的なバイアスを公平性評価に増幅するプロンプトを統合します。
フレックスと既存のベンチマークの比較実験は、従来の評価がモデルに固有のリスクを過小評価する可能性があることを示しています。
これは、安全性と公平性を保証するために、より厳しいLLM評価ベンチマークの必要性を強調しています。

要約(オリジナル)

Recent advancements in Large Language Models (LLMs) have significantly enhanced interactions between users and models. These advancements concurrently underscore the need for rigorous safety evaluations due to the manifestation of social biases, which can lead to harmful societal impacts. Despite these concerns, existing benchmarks may overlook the intrinsic weaknesses of LLMs, which can generate biased responses even with simple adversarial instructions. To address this critical gap, we introduce a new benchmark, Fairness Benchmark in LLM under Extreme Scenarios (FLEX), designed to test whether LLMs can sustain fairness even when exposed to prompts constructed to induce bias. To thoroughly evaluate the robustness of LLMs, we integrate prompts that amplify potential biases into the fairness assessment. Comparative experiments between FLEX and existing benchmarks demonstrate that traditional evaluations may underestimate the inherent risks in models. This highlights the need for more stringent LLM evaluation benchmarks to guarantee safety and fairness.

arxiv情報

著者 Dahyun Jung,Seungyoon Lee,Hyeonseok Moon,Chanjun Park,Heuiseok Lim
発行日 2025-03-25 10:48:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク