要約
生成モデリングの主流のパラダイムは、i) 大規模だが安全ではないデータセットでの事前トレーニング、ii) 微調整を通じて事前トレーニングされたモデルを人間の価値観に合わせるという 2 つのステップで構成されます。
現在の方法では安全でない事前微調整モデルの重みを回復できないため、この方法は安全であると考えられています。
この論文では、この仮定がしばしば誤りであることを示します。
具体的には、いくつかの低ランク (LoRA) 微調整モデルを使用して微調整前のモデルの重みを回復できる方法である Spectral DeTuning を紹介します。
微調整前の機能を回復しようとする以前の攻撃とは対照的に、私たちの方法は正確な微調整前の重みを回復することを目的としています。
私たちのアプローチは、パーソナライズされた安定した拡散や調整されたミストラルなどの大規模モデルに対してこの新しい脆弱性を悪用します。
要約(オリジナル)
The dominant paradigm in generative modeling consists of two steps: i) pre-training on a large-scale but unsafe dataset, ii) aligning the pre-trained model with human values via fine-tuning. This practice is considered safe, as no current method can recover the unsafe, pre-fine-tuning model weights. In this paper, we demonstrate that this assumption is often false. Concretely, we present Spectral DeTuning, a method that can recover the weights of the pre-fine-tuning model using a few low-rank (LoRA) fine-tuned models. In contrast to previous attacks that attempt to recover pre-fine-tuning capabilities, our method aims to recover the exact pre-fine-tuning weights. Our approach exploits this new vulnerability against large-scale models such as a personalized Stable Diffusion and an aligned Mistral.
arxiv情報
著者 | Eliahu Horwitz,Jonathan Kahana,Yedid Hoshen |
発行日 | 2024-02-15 18:59:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google