Rethinking Jailbreaking through the Lens of Representation Engineering

要約

最近のジェイルブレイク手法の急増により、悪意のある入力に対する大規模言語モデル (LLM) の脆弱性が明らかになりました。
これまでの研究は主に脱獄攻撃の成功率を高めることに焦点を当ててきましたが、LLM を保護するための根本的なメカニズムはまだ解明されていません。
この研究では、LLM によって生成された表現空間内の特定のアクティビティ パターンを明らかにすることで、安全性を調整した LLM の脆弱性を調査します。
このような「安全パターン」は、簡単な方法でわずか数対の対照的なクエリで識別でき、パンドラの箱を開けたり施錠したりするために使用できる「鍵」(セキュリティ防御能力の比喩として使用される)として機能します。
LLMの。
広範な実験により、特定された安全パターンを弱めたり強化したりすることで、ジェイルブレイクに対する LLM の堅牢性が低下または強化されることが実証されています。
これらの発見は、脱獄現象についての理解を深め、LLM コミュニティがオープンソース LLM の潜在的な悪用に対処することを求めています。

要約(オリジナル)

The recent surge in jailbreaking methods has revealed the vulnerability of Large Language Models (LLMs) to malicious inputs. While earlier research has primarily concentrated on increasing the success rates of jailbreaking attacks, the underlying mechanism for safeguarding LLMs remains underexplored. This study investigates the vulnerability of safety-aligned LLMs by uncovering specific activity patterns within the representation space generated by LLMs. Such “safety patterns” can be identified with only a few pairs of contrastive queries in a simple method and function as “keys” (used as a metaphor for security defense capability) that can be used to open or lock Pandora’s Box of LLMs. Extensive experiments demonstrate that the robustness of LLMs against jailbreaking can be lessened or augmented by attenuating or strengthening the identified safety patterns. These findings deepen our understanding of jailbreaking phenomena and call for the LLM community to address the potential misuse of open-source LLMs.

arxiv情報

著者 Tianlong Li,Shihan Dou,Wenhao Liu,Muling Wu,Changze Lv,Rui Zheng,Xiaoqing Zheng,Xuanjing Huang
発行日 2024-08-06 11:46:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク