Are Large Language Models Really Bias-Free? Jailbreak Prompts for Assessing Adversarial Robustness to Bias Elicitation

要約

大規模言語モデル (LLM) は人工知能に革命をもたらし、驚くべき計算能力と言語能力を実証しました。
ただし、これらのモデルは本質的に、トレーニング データに起因するさまざまなバイアスを受けやすいです。
これらには、選択バイアス、言語バイアス、確証バイアスのほか、性別、民族性、性的指向、宗教、社会経済的地位、障害、年齢に関連する一般的な固定観念が含まれます。
この研究では、最新の LLM によって提供された応答内のこうしたバイアスの存在を調査し、その公平性と信頼性への影響を分析しています。
また、既知のプロンプト エンジニアリング技術をどのように利用して LLM の隠れたバイアスを効果的に明らかにすることができるかを調査し、バイアスを引き出すために特別に作成されたジェイルブレイク プロンプトに対する敵対的な堅牢性をテストします。
最も普及している LLM をさまざまなスケールで使用して大規模な実験が行われ、LLM の高度な機能と洗練された調整プロセスにもかかわらず、LLM が依然として操作されて偏った応答や不適切な応答が生成される可能性があることが確認されました。
私たちの調査結果は、より持続可能で包括的な人工知能に向けて、これらの安全問題に対処するための緩和技術を強化することの重要性を強調しています。

要約(オリジナル)

Large Language Models (LLMs) have revolutionized artificial intelligence, demonstrating remarkable computational power and linguistic capabilities. However, these models are inherently prone to various biases stemming from their training data. These include selection, linguistic, and confirmation biases, along with common stereotypes related to gender, ethnicity, sexual orientation, religion, socioeconomic status, disability, and age. This study explores the presence of these biases within the responses given by the most recent LLMs, analyzing the impact on their fairness and reliability. We also investigate how known prompt engineering techniques can be exploited to effectively reveal hidden biases of LLMs, testing their adversarial robustness against jailbreak prompts specially crafted for bias elicitation. Extensive experiments are conducted using the most widespread LLMs at different scales, confirming that LLMs can still be manipulated to produce biased or inappropriate responses, despite their advanced capabilities and sophisticated alignment processes. Our findings underscore the importance of enhancing mitigation techniques to address these safety issues, toward a more sustainable and inclusive artificial intelligence.

arxiv情報

著者 Riccardo Cantini,Giada Cosenza,Alessio Orsino,Domenico Talia
発行日 2024-07-11 12:30:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク