Jailbreaking as a Reward Misspecification Problem

要約

大規模言語モデル (LLM) の普及により、その安全性と信頼性、特に敵対的攻撃に対する脆弱性に関する懸念が生じています。
この論文では、この脆弱性が調整プロセス中の報酬の誤った仕様に起因するという新しい視点を提案します。
この仕様の誤りは、報酬関数が意図した動作を正確に捕捉できず、モデル出力の不整合につながる場合に発生します。
報酬の誤指定の程度を定量化し、有害なバックドア プロンプトの検出におけるその有効性と堅牢性を実証するために、指標 ReGap を導入します。
これらの洞察に基づいて、報酬が正しく指定されていない領域で敵対的なプロンプトを生成する、自動化されたレッドチーム化のためのシステムである ReMiss を紹介します。
ReMiss は、生成されたプロンプトの人間による可読性を維持しながら、さまざまなターゲットに合わせた LLM に対する AdvBench ベンチマークで最先端の攻撃成功率を達成します。
さらに、オープンソース モデルに対するこれらの攻撃は、GPT-4o などのクローズド ソース モデルや HarmBench の配布外タスクへの高い転送可能性を示しています。
詳細な分析により、以前の方法と比較して、提案された報酬誤設定目標の独自の利点が強調され、LLM の安全性と堅牢性を向上させるための新しい洞察が提供されます。

要約(オリジナル)

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. This misspecification occurs when the reward function fails to accurately capture the intended behavior, leading to misaligned model outputs. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts in a reward-misspecified space. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark against various target aligned LLMs while preserving the human readability of the generated prompts. Furthermore, these attacks on open-source models demonstrate high transferability to closed-source models like GPT-4o and out-of-distribution tasks from HarmBench. Detailed analysis highlights the unique advantages of the proposed reward misspecification objective compared to previous methods, offering new insights for improving LLM safety and robustness.

arxiv情報

著者 Zhihui Xie,Jiahui Gao,Lei Li,Zhenguo Li,Qi Liu,Lingpeng Kong
発行日 2025-01-17 13:56:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク