要約
我々は、LLMに対する脱獄敵対的攻撃の新しいクラス、タスク・イン・プロンプト(TIP)攻撃と呼ばれるものを提示する。我々のアプローチは、禁止された入力を間接的に生成するために、シーケンスからシーケンスへのタスク(例えば、暗号解読、なぞなぞ、コード実行)をモデルのプロンプトに埋め込む。これらの攻撃の有効性を系統的に評価するために、PHRYGEベンチマークを導入する。GPT-4oやLLaMA 3.2を含む6つの最先端の言語モデルにおいて、我々の技術がセーフガードを回避することに成功したことを実証する。我々の発見は、現在のLLM安全性アラインメントの重大な弱点を浮き彫りにし、より洗練された防御戦略の緊急の必要性を強調している。 警告:この論文には、研究目的のみに使用された非倫理的な問い合わせの例が含まれています。
要約(オリジナル)
We present a novel class of jailbreak adversarial attacks on LLMs, termed Task-in-Prompt (TIP) attacks. Our approach embeds sequence-to-sequence tasks (e.g., cipher decoding, riddles, code execution) into the model’s prompt to indirectly generate prohibited inputs. To systematically assess the effectiveness of these attacks, we introduce the PHRYGE benchmark. We demonstrate that our techniques successfully circumvent safeguards in six state-of-the-art language models, including GPT-4o and LLaMA 3.2. Our findings highlight critical weaknesses in current LLM safety alignments and underscore the urgent need for more sophisticated defence strategies. Warning: this paper contains examples of unethical inquiries used solely for research purposes.
arxiv情報
著者 | Sergey Berezin,Reza Farahbakhsh,Noel Crespi |
発行日 | 2025-02-03 18:19:04+00:00 |
arxivサイト | arxiv_id(pdf) |