Jailbreaking as a Reward Misspecification Problem

要約

大規模言語モデル(LLM)の普及により、その安全性と信頼性、特に敵対的攻撃に対する脆弱性についての懸念が高まっている。本論文では、この脆弱性をアライメント過程における報酬の誤指定に起因するという新しい視点を提案する。このミススペクフィケーションは、報酬関数が意図された振る舞いを正確に捉えられず、モデル出力の不整合につながる場合に発生する。我々は、報酬の誤指定の程度を定量化するためのメトリックReGapを導入し、有害なバックドアプロンプトを検出する際の有効性と頑健性を実証する。これらの洞察に基づき、報酬が誤って指定された空間で敵対的なプロンプトを生成する自動レッドチーミングのためのシステムであるReMissを発表する。ReMissは、生成されたプロンプトの人間の可読性を維持しながら、様々なターゲットにアライメントされたLLMに対して、AdvBenchベンチマークで最先端の攻撃成功率を達成している。さらに、オープンソースモデルに対するこれらの攻撃は、GPT-4oのようなクローズドソースモデルやHarmBenchの配布外タスクへの高い移植性を示しています。詳細な分析により、従来の手法と比較して、提案する報酬誤指定の目的のユニークな利点が強調され、LLMの安全性と頑健性を改善するための新たな洞察が提供される。

要約(オリジナル)

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. This misspecification occurs when the reward function fails to accurately capture the intended behavior, leading to misaligned model outputs. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts in a reward-misspecified space. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark against various target aligned LLMs while preserving the human readability of the generated prompts. Furthermore, these attacks on open-source models demonstrate high transferability to closed-source models like GPT-4o and out-of-distribution tasks from HarmBench. Detailed analysis highlights the unique advantages of the proposed reward misspecification objective compared to previous methods, offering new insights for improving LLM safety and robustness.

arxiv情報

著者 Zhihui Xie,Jiahui Gao,Lei Li,Zhenguo Li,Qi Liu,Lingpeng Kong
発行日 2024-10-04 15:10:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CL, cs.LG パーマリンク