要約
テキストから画像へのモデルと微調整方法の進歩により、悪意のある適応、つまり有害な不正コンテンツを生成する微調整のリスクが増大しています。
Glaze や MIST などの最近の研究では、適応手法からデータを保護するデータポイズニング技術が開発されました。
この研究では、保護のための代替パラダイムを検討します。
私たちは、悪意のあるコンテンツを微調整する際に、適応方法では困難なモデルパラメータを学習することによってモデルを「免疫化」することを提案します。
略してIMMA。
実証結果は、LoRA、Textual-Inversion、DreamBooth の 3 つの適応方法において、芸術的なスタイルの模倣や不適切/不正なコンテンツの学習などの悪意のある適応に対する IMMA の有効性を示しています。
要約(オリジナル)
Advancements in text-to-image models and fine-tuning methods have led to the increasing risk of malicious adaptation, i.e., fine-tuning to generate harmful unauthorized content. Recent works, e.g., Glaze or MIST, have developed data-poisoning techniques which protect the data against adaptation methods. In this work, we consider an alternative paradigm for protection. We propose to “immunize” the model by learning model parameters that are difficult for the adaptation methods when fine-tuning malicious content; in short IMMA. Empirical results show IMMA’s effectiveness against malicious adaptations, including mimicking the artistic style and learning of inappropriate/unauthorized content, over three adaptation methods: LoRA, Textual-Inversion, and DreamBooth.
arxiv情報
著者 | Yijia Zheng,Raymond A. Yeh |
発行日 | 2023-11-30 18:55:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google