Stealth edits for provably fixing or attacking large language models

要約

大規模な言語モデルを編集するための新しい方法と技術の理論的基礎を明らかにします。
また、新しい理論を使用してモデルの編集可能性を評価し、これまで知られていなかった悪意のある攻撃に対するモデルの脆弱性を明らかにする方法も示します。
私たちの理論的アプローチは、単一のメトリクス (モデルの特徴の本質的な次元性の特定の尺度) が一般的な編集アプローチの成功を予測するための基礎であることを示し、異種の編集方法ファミリー間の新しい架け橋を明らかにします。
これらのアプローチは、再トレーニングを必要とせず、モデルの動作に影響を与えることなく、既知の幻覚プロンプトに対するモデルの応答を修正するためにモデルの重みを直接かつ低コストで更新することを目的としているため、これらのアプローチをまとめてステルス編集手法と呼びます。
理論的調査から収集した洞察を慎重に適用することで、ジェットパック ブロックと呼ばれる新しいネットワーク ブロックを導入することができます。このブロックは、高度に選択的なモデル編集用に最適化されており、標準のネットワーク操作のみを使用し、
既存のネットワーク。
固有の次元数メトリクスは、ステルス攻撃に対する言語モデルの脆弱性も決定します。つまり、モデルの重みを少し変更すると、攻撃者が選択した単一のプロンプトに対する応答が変わります。
ステルス攻撃は、モデルのトレーニング データへのアクセスやその知識を必要としないため、再配布された基盤モデルに対して、これまで認識されていなかった強力な脅威となります。
これらは、多くの場合、マルウェアに実装できるほど計算的に簡単です。
広範な実験結果が、この方法とその理論的基礎を示し、裏付けています。
言語モデルを編集するためのデモとソース コードは、https://github.com/qinghua-zhou/stealth-edits で入手できます。

要約(オリジナル)

We reveal new methods and the theoretical foundations of techniques for editing large language models. We also show how the new theory can be used to assess the editability of models and to expose their susceptibility to previously unknown malicious attacks. Our theoretical approach shows that a single metric (a specific measure of the intrinsic dimensionality of the model’s features) is fundamental to predicting the success of popular editing approaches, and reveals new bridges between disparate families of editing methods. We collectively refer to these approaches as stealth editing methods, because they aim to directly and inexpensively update a model’s weights to correct the model’s responses to known hallucinating prompts without otherwise affecting the model’s behaviour, without requiring retraining. By carefully applying the insight gleaned from our theoretical investigation, we are able to introduce a new network block — named a jet-pack block — which is optimised for highly selective model editing, uses only standard network operations, and can be inserted into existing networks. The intrinsic dimensionality metric also determines the vulnerability of a language model to a stealth attack: a small change to a model’s weights which changes its response to a single attacker-chosen prompt. Stealth attacks do not require access to or knowledge of the model’s training data, therefore representing a potent yet previously unrecognised threat to redistributed foundation models. They are computationally simple enough to be implemented in malware in many cases. Extensive experimental results illustrate and support the method and its theoretical underpinnings. Demos and source code for editing language models are available at https://github.com/qinghua-zhou/stealth-edits.

arxiv情報

著者 Oliver J. Sutton,Qinghua Zhou,Wei Wang,Desmond J. Higham,Alexander N. Gorban,Alexander Bastounis,Ivan Y. Tyukin
発行日 2024-06-18 14:43:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, 68T50, 68W40, cs.AI, cs.LG, I.2.7 パーマリンク