Soft Prompt Threats: Attacking Safety Alignment and Unlearning in Open-Source LLMs through the Embedding Space

要約

LLMSの敵対的堅牢性に関する現在の研究は、自然言語空間での個別の入力操作に焦点を当てており、これを閉鎖モデルに直接転送できます。
ただし、このアプローチは、オープンソースモデルの着実な進行を無視しています。
オープンソースモデルが能力が進むにつれて、安全性がますます不可欠になるようにします。
しかし、完全なモデルアクセスを活用するオープンソースLLMに合わせた攻撃は、ほとんど未踏のままです。
この研究のギャップに対処し、入力トークンの連続埋め込み表現を直接攻撃する埋め込みスペース攻撃を提案します。
埋め込むスペース攻撃は、モデルのアライメントを回避し、離散攻撃やモデルの微調整よりも有害な行動をより効率的にトリガーすることがわかります。
さらに、学習のコンテキストで新しい脅威モデルを提示し、スペース攻撃を埋め込むことで、複数のデータセットとモデルにわたって未学習のLLMから削除された情報を抽出できることを示します。
私たちの調査結果は、オープンソースLLMSの重要な脅威モデルとして宇宙攻撃を埋め込むことを強調しています。
トリガー警告:付録には、暴力と嫌がらせのLLM生成テキストが含まれています。

要約(オリジナル)

Current research in adversarial robustness of LLMs focuses on discrete input manipulations in the natural language space, which can be directly transferred to closed-source models. However, this approach neglects the steady progression of open-source models. As open-source models advance in capability, ensuring their safety also becomes increasingly imperative. Yet, attacks tailored to open-source LLMs that exploit full model access remain largely unexplored. We address this research gap and propose the embedding space attack, which directly attacks the continuous embedding representation of input tokens. We find that embedding space attacks circumvent model alignments and trigger harmful behaviors more efficiently than discrete attacks or model fine-tuning. Furthermore, we present a novel threat model in the context of unlearning and show that embedding space attacks can extract supposedly deleted information from unlearned LLMs across multiple datasets and models. Our findings highlight embedding space attacks as an important threat model in open-source LLMs. Trigger Warning: the appendix contains LLM-generated text with violence and harassment.

arxiv情報

著者 Leo Schwinn,David Dobre,Sophie Xhonneux,Gauthier Gidel,Stephan Gunnemann
発行日 2025-04-16 15:15:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク