From Benign import Toxic: Jailbreaking the Language Model via Adversarial Metaphors

要約

現在の研究は、脱獄攻撃によって有害なコンテンツを生成する大規模な言語モデル(LLM)のリスクを明らかにしています。
しかし、彼らは、有害なコンテンツの直接的な生成がゼロからの直接的な生成は、LLMに良性のコンテンツを有害な形に較正するよりも困難であることを見落としています。
私たちの研究では、敵対的なメタファー(Avatar)を悪用してLLMを誘導して、悪意のあるメタファーを促進するために誘導する新しい攻撃フレームワークを紹介します。
具体的には、有害なクエリに答えるために、アバターは、良性であるが論理的に関連するメタファーのセットを初期シードとして適応的に識別します。
次に、これらの比phorによって駆動されると、ターゲットLLMは比phor的な内容について推論および較正されるように誘導され、したがって、有害な反応を直接出力するか、比phor的および専門的な有害なコンテンツの間の残差を較正することによって侵害されます。
実験結果は、アバターがLLMSを効果的かつ移転可能な脱獄可能な脱獄が可能であり、複数の高度なLLMで最先端の攻撃成功率を達成できることを示しています。

要約(オリジナル)

Current studies have exposed the risk of Large Language Models (LLMs) generating harmful content by jailbreak attacks. However, they overlook that the direct generation of harmful content from scratch is more difficult than inducing LLM to calibrate benign content into harmful forms. In our study, we introduce a novel attack framework that exploits AdVersArial meTAphoR (AVATAR) to induce the LLM to calibrate malicious metaphors for jailbreaking. Specifically, to answer harmful queries, AVATAR adaptively identifies a set of benign but logically related metaphors as the initial seed. Then, driven by these metaphors, the target LLM is induced to reason and calibrate about the metaphorical content, thus jailbroken by either directly outputting harmful responses or calibrating residuals between metaphorical and professional harmful content. Experimental results demonstrate that AVATAR can effectively and transferable jailbreak LLMs and achieve a state-of-the-art attack success rate across multiple advanced LLMs.

arxiv情報

著者 Yu Yan,Sheng Sun,Zenghao Duan,Teli Liu,Min Liu,Zhiyi Yin,Jiangyu Lei,Qi Li
発行日 2025-06-05 17:10:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.CR パーマリンク