Scaling Laws for Adversarial Attacks on Language Model Activations

要約

私たちは、言語モデルの活性化をターゲットとした敵対的攻撃のクラスを調査します。
モデルのアクティベーションの比較的小さなサブセット $a$ を操作することで、後続のトークン $t$ のかなりの数 (場合によっては最大 1000) の正確な予測を制御できることを実証します。
予測されるターゲット トークン $t_\mathrm{max}$ の最大数は、攻撃者が活性化を制御するトークン $a$ の数に線形に依存するスケーリング則を経験的に検証します。 $t_\mathrm{max} = \kappa a$

出力空間の 1 ビットを制御するために必要な入力空間の制御ビット数 (攻撃耐性 $\chi$ と呼ぶもの) は、$\約 16$ から $\約 25$ の間で驚くほど一定であることがわかりました。
さまざまな言語モデルのモデル サイズが 2 桁大きくなります。
トークンに対する攻撃と比較すると、アクティベーションに対する攻撃は予想どおりはるかに強力ですが、アクティベーションまたはトークンを介して操作された 1 ビットの入力が、同量の出力ビットを制御できるという驚くべき規則性が確認されました。
これは、敵対的攻撃は入力空間と出力空間の間の次元の不一致の結果であるという仮説を裏付けるものになります。
トークンの代わりに言語モデルのアクティベーションを攻撃しやすいことの実際的な意味は、マルチモーダルで選択された取得モデルにあり、追加のデータ ソースがアクティベーションとして直接追加され、トークン化された入力が回避されます。
これにより、新たな広範な攻撃対象領域が開かれます。
敵対的攻撃を研究するための制御可能なテストベッドとして言語モデルを使用することにより、コンピューター ビジョンではアクセスできない入出力次元、特に出力次元が支配的な場合を実験することができました。

要約(オリジナル)

We explore a class of adversarial attacks targeting the activations of language models. By manipulating a relatively small subset of model activations, $a$, we demonstrate the ability to control the exact prediction of a significant number (in some cases up to 1000) of subsequent tokens $t$. We empirically verify a scaling law where the maximum number of target tokens $t_\mathrm{max}$ predicted depends linearly on the number of tokens $a$ whose activations the attacker controls as $t_\mathrm{max} = \kappa a$. We find that the number of bits of control in the input space needed to control a single bit in the output space (what we call attack resistance $\chi$) is remarkably constant between $\approx 16$ and $\approx 25$ over 2 orders of magnitude of model sizes for different language models. Compared to attacks on tokens, attacks on activations are predictably much stronger, however, we identify a surprising regularity where one bit of input steered either via activations or via tokens is able to exert control over a similar amount of output bits. This gives support for the hypothesis that adversarial attacks are a consequence of dimensionality mismatch between the input and output spaces. A practical implication of the ease of attacking language model activations instead of tokens is for multi-modal and selected retrieval models, where additional data sources are added as activations directly, sidestepping the tokenized input. This opens up a new, broad attack surface. By using language models as a controllable test-bed to study adversarial attacks, we were able to experiment with input-output dimensions that are inaccessible in computer vision, especially where the output dimension dominates.

arxiv情報

著者 Stanislav Fort
発行日 2023-12-05 14:12:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CR, cs.LG パーマリンク