Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge

要約

大規模な言語モデル(LLM)は、人工知能に革命をもたらし、機械翻訳、要約、および会話エージェントの進歩を促進しています。
しかし、重要な社会的領域への統合の増加は、埋め込まれたバイアスに関する懸念を提起し、ステレオタイプを永続させ、公平性を妥協することができます。
これらのバイアスは、トレーニングデータにおける歴史的な不平等、言語の不均衡、敵対的操作など、さまざまなソースに由来しています。
緩和の取り組みにもかかわらず、最近の研究は、LLMが偏った反応を引き出すように設計された敵対的攻撃に対して脆弱なままであることを示しています。
この作業は、敵対的なバイアスの誘発に対するLLMの堅牢性を評価するためのスケーラブルなベンチマークフレームワークを提案しています。
私たちの方法論には、(i)さまざまな社会文化的側面にわたるバイアスをターゲットにしたマルチタスクアプローチでモデルを体系的に調査すること、(ii)モデル応答の自動評価のためのLLM-As-a-Judgeアプローチを使用して安全性スコアを介して堅牢性を定量化し、(iii)安全性の脆弱性を調査するための脱却技術を採用する(iii)
私たちの分析では、最先端モデルの大小の両方で一般的なバイアスとモデルの安全性への影響を調べます。
さらに、医学などの重要な分野で微調整されたドメイン固有のモデルの安全性を評価します。
最後に、体系的な脆弱性ベンチマークを促進するために、バイアス関連のプロンプトであるClearBiasのキュレーションされたデータセットをリリースします。
私たちの調査結果は、モデルのサイズと安全性の間の重要なトレードオフを明らかにし、より公平で堅牢な将来の言語モデルの開発を支援します。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized artificial intelligence, driving advancements in machine translation, summarization, and conversational agents. However, their increasing integration into critical societal domains has raised concerns about embedded biases, which can perpetuate stereotypes and compromise fairness. These biases stem from various sources, including historical inequalities in training data, linguistic imbalances, and adversarial manipulation. Despite mitigation efforts, recent studies indicate that LLMs remain vulnerable to adversarial attacks designed to elicit biased responses. This work proposes a scalable benchmarking framework to evaluate LLM robustness against adversarial bias elicitation. Our methodology involves (i) systematically probing models with a multi-task approach targeting biases across various sociocultural dimensions, (ii) quantifying robustness through safety scores using an LLM-as-a-Judge approach for automated assessment of model responses, and (iii) employing jailbreak techniques to investigate vulnerabilities in safety mechanisms. Our analysis examines prevalent biases in both small and large state-of-the-art models and their impact on model safety. Additionally, we assess the safety of domain-specific models fine-tuned for critical fields, such as medicine. Finally, we release a curated dataset of bias-related prompts, CLEAR-Bias, to facilitate systematic vulnerability benchmarking. Our findings reveal critical trade-offs between model size and safety, aiding the development of fairer and more robust future language models.

arxiv情報

著者 Riccardo Cantini,Alessio Orsino,Massimo Ruggiero,Domenico Talia
発行日 2025-04-10 16:00:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク