Jailbreaking as a Reward Misspecification Problem

要約

大規模言語モデル (LLM) の普及により、その安全性と信頼性、特に敵対的攻撃に対する脆弱性に関する懸念が生じています。
この論文では、この脆弱性が調整プロセス中の報酬の誤った仕様に起因するという新しい視点を提案します。
報酬の誤指定の程度を定量化し、有害なバックドア プロンプトの検出におけるその有効性と堅牢性を実証するために、指標 ReGap を導入します。
これらの洞察に基づいて、さまざまなターゲットに合わせた LLM に対して敵対的プロンプトを生成する自動レッド チーム化システムである ReMiss を紹介します。
ReMiss は、生成されたプロンプトの人間による可読性を維持しながら、AdvBench ベンチマークで最先端の攻撃成功率を達成します。
詳細な分析により、以前の方法と比較して、提案された報酬の誤った目標によってもたらされる独自の利点が強調されます。

要約(オリジナル)

The widespread adoption of large language models (LLMs) has raised concerns about their safety and reliability, particularly regarding their vulnerability to adversarial attacks. In this paper, we propose a novel perspective that attributes this vulnerability to reward misspecification during the alignment process. We introduce a metric ReGap to quantify the extent of reward misspecification and demonstrate its effectiveness and robustness in detecting harmful backdoor prompts. Building upon these insights, we present ReMiss, a system for automated red teaming that generates adversarial prompts against various target aligned LLMs. ReMiss achieves state-of-the-art attack success rates on the AdvBench benchmark while preserving the human readability of the generated prompts. Detailed analysis highlights the unique advantages brought by the proposed reward misspecification objective compared to previous methods.

arxiv情報

著者 Zhihui Xie,Jiahui Gao,Lei Li,Zhenguo Li,Qi Liu,Lingpeng Kong
発行日 2024-07-12 08:15:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク