要約
従来の AI 安全性研究のほとんどは、AI モデルを機械としてアプローチし、セキュリティ専門家によって開発されたアルゴリズムに焦点を当てた攻撃を中心にしていました。
大規模言語モデル (LLM) がますます一般的かつ有能になるにつれて、専門知識のないユーザーも日常のやり取り中にリスクを負わせる可能性があります。
この論文では、人間のようなコミュニケーターとして LLM を脱獄するための新しい視点を紹介し、日常の言語対話と AI の安全性の間の見落とされている交差点を調査します。
具体的には、LLM を説得してジェイルブレイクする方法を研究します。
まず、数十年にわたる社会科学研究に基づいて導き出された説得分類法を提案します。
次に、分類法を適用して、LLM を脱獄するための解釈可能な説得的敵対的プロンプト (PAP) を自動的に生成します。
結果は、説得によりすべてのリスク カテゴリにわたってジェイルブレイクのパフォーマンスが大幅に向上することを示しています。PAP は、$10$ のトライアルで Llama 2-7b Chat、GPT-3.5、および GPT-4 で $92\%$ 以上の攻撃成功率を一貫して達成し、最近のアルゴリズムを上回っています。
-集中攻撃。
防御面では、PAP に対するさまざまなメカニズムを調査し、既存の防御策に大きなギャップがあることを発見し、高度にインタラクティブな LLM に対するより根本的な緩和策を提唱しています。
要約(オリジナル)
Most traditional AI safety research has approached AI models as machines and centered on algorithm-focused attacks developed by security experts. As large language models (LLMs) become increasingly common and competent, non-expert users can also impose risks during daily interactions. This paper introduces a new perspective to jailbreak LLMs as human-like communicators, to explore this overlooked intersection between everyday language interaction and AI safety. Specifically, we study how to persuade LLMs to jailbreak them. First, we propose a persuasion taxonomy derived from decades of social science research. Then, we apply the taxonomy to automatically generate interpretable persuasive adversarial prompts (PAP) to jailbreak LLMs. Results show that persuasion significantly increases the jailbreak performance across all risk categories: PAP consistently achieves an attack success rate of over $92\%$ on Llama 2-7b Chat, GPT-3.5, and GPT-4 in $10$ trials, surpassing recent algorithm-focused attacks. On the defense side, we explore various mechanisms against PAP and, found a significant gap in existing defenses, and advocate for more fundamental mitigation for highly interactive LLMs
arxiv情報
著者 | Yi Zeng,Hongpeng Lin,Jingwen Zhang,Diyi Yang,Ruoxi Jia,Weiyan Shi |
発行日 | 2024-01-12 16:13:24+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google