Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable

要約

所有者を保護し、安全規制を促進するために、基礎的な生成モデルは追跡可能である必要があります。
これを実現するために、従来のアプローチでは、一般にバックドア ウォーターマークとして知られる監視トリガー応答信号に基づいた識別子を埋め込みます。
トリガー以外のデータを使用してモデルを微調整すると、失敗する傾向があります。
私たちの実験によると、この脆弱性は、微調整中の少数の「ビジー」レイヤーのみのエネルギー変化によるものであることがわかりました。
これにより、透かしを微調整ベースの除去に対して復元力のある新しい任意入力任意出力 (AIAO) 戦略が得られます。
さまざまなニューラル ネットワーク深度にわたる AIAO サンプルのトリガーと応答のペアを使用して、透かし入りのサブパスを構築し、モンテカルロ サンプリングを使用して安定した検証結果を達成できます。
さらに、拡散モデルの入出力空間用のバックドアを設計する既存の方法とは異なり、私たちの方法では、サンプリングされたサブパスの特徴空間にバックドアを埋め込むことを提案します。そこでは、マスク制御されたトリガー関数が、データを保存するために提案されています。
生成パフォーマンスを向上させ、埋め込みバックドアの不可視性を確保します。
MS-COCO、AFHQ、LSUN、CUB-200、DreamBooth データセットに関する実証研究により、AIAO の堅牢性が確認されています。
他のトリガーベースの手法の検証率は、微調整後に約 90% から約 70% に低下しますが、私たちの手法の検証率は一貫して 90% 以上を維持します。

要約(オリジナル)

Foundational generative models should be traceable to protect their owners and facilitate safety regulation. To achieve this, traditional approaches embed identifiers based on supervisory trigger-response signals, which are commonly known as backdoor watermarks. They are prone to failure when the model is fine-tuned with nontrigger data. Our experiments show that this vulnerability is due to energetic changes in only a few ‘busy’ layers during fine-tuning. This yields a novel arbitrary-in-arbitrary-out (AIAO) strategy that makes watermarks resilient to fine-tuning-based removal. The trigger-response pairs of AIAO samples across various neural network depths can be used to construct watermarked subpaths, employing Monte Carlo sampling to achieve stable verification results. In addition, unlike the existing methods of designing a backdoor for the input/output space of diffusion models, in our method, we propose to embed the backdoor into the feature space of sampled subpaths, where a mask-controlled trigger function is proposed to preserve the generation performance and ensure the invisibility of the embedded backdoor. Our empirical studies on the MS-COCO, AFHQ, LSUN, CUB-200, and DreamBooth datasets confirm the robustness of AIAO; while the verification rates of other trigger-based methods fall from ~90% to ~70% after fine-tuning, those of our method remain consistently above 90%.

arxiv情報

著者 Haozhe Liu,Wentian Zhang,Bing Li,Bernard Ghanem,Jürgen Schmidhuber
発行日 2024-05-01 12:03:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CR, cs.CV パーマリンク