要約
大規模言語モデル (LLM) は、脱獄として知られる一種の攻撃を受けやすく、LLM が有害なコンテンツを出力するように誤解させます。
脱獄攻撃戦略にはさまざまなものがありますが、なぜ一部の手法が成功し、他の手法が失敗するのかについては統一された理解がありません。
この論文では、成功したジェイルブレイク攻撃の本質的な特性を調査するために、LLM の表現空間における有害なプロンプトと無害なプロンプトの動作を調査します。
私たちは、成功した攻撃にはいくつかの同様の特性があると仮説を立てています。攻撃は、有害なプロンプトの表現を無害なプロンプトの方向に移動させる効果があります。
私たちは、既存のジェイルブレイク攻撃の目的に隠された表現を活用して、攻撃を許容方向に沿って動かし、提案された目的を使用して上記の仮説を検証する実験を実施します。
この研究が、LLM が有害性情報をどのように理解しているかを理解する上で新たな洞察を提供することを願っています。
要約(オリジナル)
Large language models (LLMs) are susceptible to a type of attack known as jailbreaking, which misleads LLMs to output harmful contents. Although there are diverse jailbreak attack strategies, there is no unified understanding on why some methods succeed and others fail. This paper explores the behavior of harmful and harmless prompts in the LLM’s representation space to investigate the intrinsic properties of successful jailbreak attacks. We hypothesize that successful attacks share some similar properties: They are effective in moving the representation of the harmful prompt towards the direction to the harmless prompts. We leverage hidden representations into the objective of existing jailbreak attacks to move the attacks along the acceptance direction, and conduct experiments to validate the above hypothesis using the proposed objective. We hope this study provides new insights into understanding how LLMs understand harmfulness information.
arxiv情報
著者 | Yuping Lin,Pengfei He,Han Xu,Yue Xing,Makoto Yamada,Hui Liu,Jiliang Tang |
発行日 | 2024-06-26 13:50:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google