Desert Camels and Oil Sheikhs: Arab-Centric Red Teaming of Frontier LLMs

要約

大規模言語モデル (LLM) は広く使用されていますが、社会的な偏見が埋め込まれているため、倫理的な懸念が生じます。
この研究では、女性の権利、テロリズム、反ユダヤ主義を含む8つの領域にわたって、アラブ人対西洋人に対するLLMバイアスを調査し、これらのバイアスの永続に対するモデルの抵抗を評価します。
この目的を達成するために、我々は 2 つのデータセットを作成しました。1 つはアラブ人対西洋人に対する LLM バイアスを評価するためのもので、もう 1 つは否定的な特性 (「脱獄」) を誇張するプロンプトに対するモデルの安全性をテストするためのものです。
GPT-4、GPT-4o、LlaMA 3.1 (8B & 405B)、Mistral 7B、Claude 3.5 Sonnet の 6 つの LLM を評価します。
症例の 79% がアラブ人に対する否定的な偏見を示しており、LlaMA 3.1-405B が最も偏見を持っていることがわかりました。
当社のジェイルブレイク テストでは、最適化されたバージョンであるにもかかわらず GPT-4o が最も脆弱であることが判明し、次に LlaMA 3.1-8B と Mistral 7B が続きます。
クロードを除くすべての LLM は、3 つのカテゴリで 87% 以上の攻撃成功率を示します。
また、Claude 3.5 Sonnet が最も安全であることがわかりましたが、それでも 8 つのカテゴリのうち 7 つにバイアスが表示されます。
GPT4 の最適化されたバージョンであるにもかかわらず、GPT-4o はバイアスやジェイルブレイクを起こしやすいことがわかり、最適化の欠陥が示唆されます。
私たちの調査結果は、LLM におけるより堅牢なバイアス緩和戦略と強化されたセキュリティ対策の差し迫った必要性を強調しています。

要約(オリジナル)

Large language models (LLMs) are widely used but raise ethical concerns due to embedded social biases. This study examines LLM biases against Arabs versus Westerners across eight domains, including women’s rights, terrorism, and anti-Semitism and assesses model resistance to perpetuating these biases. To this end, we create two datasets: one to evaluate LLM bias toward Arabs versus Westerners and another to test model safety against prompts that exaggerate negative traits (‘jailbreaks’). We evaluate six LLMs — GPT-4, GPT-4o, LlaMA 3.1 (8B & 405B), Mistral 7B, and Claude 3.5 Sonnet. We find 79% of cases displaying negative biases toward Arabs, with LlaMA 3.1-405B being the most biased. Our jailbreak tests reveal GPT-4o as the most vulnerable, despite being an optimized version, followed by LlaMA 3.1-8B and Mistral 7B. All LLMs except Claude exhibit attack success rates above 87% in three categories. We also find Claude 3.5 Sonnet the safest, but it still displays biases in seven of eight categories. Despite being an optimized version of GPT4, We find GPT-4o to be more prone to biases and jailbreaks, suggesting optimization flaws. Our findings underscore the pressing need for more robust bias mitigation strategies and strengthened security measures in LLMs.

arxiv情報

著者 Muhammed Saeed,Elgizouli Mohamed,Mukhtar Mohamed,Shaina Raza,Shady Shehata,Muhammad Abdul-Mageed
発行日 2024-10-31 15:45:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク