要約
テキストから画像への拡散モデルは、大規模な Web スケールのデータセットに依存しています。
これらをゼロからトレーニングすると計算コストがかかるため、開発者は既存のモデルを増分更新することを好むことがよくあります。
これらの更新は、多くの場合、微調整ステップ (新しい概念を学習したり、モデルのパフォーマンスを向上させるため) と、「学習を解除する」ステップ (著作権で保護された作品や露骨なコンテンツなどの既存の概念を「忘れる」ため) で構成されます。
この研究では、このパラダイムで発生する、これまで知られていなかった重大な脆弱性を実証します。たとえ無害で敵対的ではない条件下であっても、一見無関係な画像上でテキストから画像への拡散モデルを微調整すると、概念が「再学習」される可能性があります。
以前は「学習されていない」ものでした。
私たちは、「大量概念消去」(テキストから画像への拡散モデルにおけるアンラーニングの現在の最先端技術)を構成する一連の実験を実行することにより、概念復活と呼ぶこの現象の原因と範囲を包括的に調査します(Lu et
al., 2024))、その後の Stable Diffusion v1.4 の微調整。
私たちの調査結果は、増分モデルの更新を構成することの脆弱性を強調し、テキストから画像への拡散モデルの安全性と整合性を確保するための現在のアプローチに対する深刻な新たな懸念を引き起こしています。
要約(オリジナル)
Text-to-image diffusion models rely on massive, web-scale datasets. Training them from scratch is computationally expensive, and as a result, developers often prefer to make incremental updates to existing models. These updates often compose fine-tuning steps (to learn new concepts or improve model performance) with ‘unlearning’ steps (to ‘forget’ existing concepts, such as copyrighted works or explicit content). In this work, we demonstrate a critical and previously unknown vulnerability that arises in this paradigm: even under benign, non-adversarial conditions, fine-tuning a text-to-image diffusion model on seemingly unrelated images can cause it to ‘relearn’ concepts that were previously ‘unlearned.’ We comprehensively investigate the causes and scope of this phenomenon, which we term concept resurgence, by performing a series of experiments which compose ‘mass concept erasure’ (the current state of the art for unlearning in text-to-image diffusion models (Lu et al., 2024)) with subsequent fine-tuning of Stable Diffusion v1.4. Our findings underscore the fragility of composing incremental model updates, and raise serious new concerns about current approaches to ensuring the safety and alignment of text-to-image diffusion models.
arxiv情報
著者 | Vinith M. Suriyakumar,Rohan Alur,Ayush Sekhari,Manish Raghavan,Ashia C. Wilson |
発行日 | 2024-10-10 16:10:27+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google