要約
大規模な言語モデル(LLM)は、さまざまなタスクで大きな進歩を遂げていますが、その安全アライメントは依然として大きな懸念事項です。
ジェイルブレイクプロンプトを探索すると、LLMSの脆弱性を明らかにし、それらを確保するための努力を導くことができます。
既存の方法は、主にLLMが従うか、複数の反復に依存する洗練された指示を設計します。これにより、脱獄のパフォーマンスと効率が妨げられる可能性があります。
この作業では、LLMセーフガードを効果的に回避し、有害な反応を引き出すことができる新しい脱獄パラダイム、単純な支援タスクリンケージ(SATA)を提案します。
具体的には、SATAは最初に悪意のあるクエリ内で有害なキーワードをマスクし、1つまたは複数の[マスク]特別なトークンを含む比較的良性のクエリを生成します。
次に、マスクされたキーワードのセマンティクスをエンコードするために、マスクされた言語モデルタスクや位置タスクごとの要素検索などの簡単な支援タスクを採用します。
最後に、SATAは支援タスクをマスクされたクエリとリンクして、脱獄を共同で実行します。
広範な実験では、SATAが最先端のパフォーマンスを達成し、大きなマージンでベースラインを上回ることが示されています。
具体的には、Advbench Dataset、Mask Language Model(MLM)Assistive Taskを使用して、SATAは85%の全体的な攻撃成功率(ASR)と4.57の有害スコア(HS)を達成し、Position by Position(ELP)支援タスクで、SATAは76%のASRと4.43のHSを達成します。
要約(オリジナル)
Large language models (LLMs) have made significant advancements across various tasks, but their safety alignment remain a major concern. Exploring jailbreak prompts can expose LLMs’ vulnerabilities and guide efforts to secure them. Existing methods primarily design sophisticated instructions for the LLM to follow, or rely on multiple iterations, which could hinder the performance and efficiency of jailbreaks. In this work, we propose a novel jailbreak paradigm, Simple Assistive Task Linkage (SATA), which can effectively circumvent LLM safeguards and elicit harmful responses. Specifically, SATA first masks harmful keywords within a malicious query to generate a relatively benign query containing one or multiple [MASK] special tokens. It then employs a simple assistive task such as a masked language model task or an element lookup by position task to encode the semantics of the masked keywords. Finally, SATA links the assistive task with the masked query to jointly perform the jailbreak. Extensive experiments show that SATA achieves state-of-the-art performance and outperforms baselines by a large margin. Specifically, on AdvBench dataset, with mask language model (MLM) assistive task, SATA achieves an overall attack success rate (ASR) of 85% and harmful score (HS) of 4.57, and with element lookup by position (ELP) assistive task, SATA attains an overall ASR of 76% and HS of 4.43.
arxiv情報
著者 | Xiaoning Dong,Wenbo Hu,Wei Xu,Tianxing He |
発行日 | 2025-03-21 13:00:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google