Robust Concept Erasure Using Task Vectors

要約

テキストから画像への変換モデルの急速な発展に伴い、望ましくない画像生成を防ぐための様々な手法が提案されてきた。しかし、これらの手法は、多くの場合、特定のユーザープロンプトに対してのみ保護され、他の入力では安全でない生成を許してしまうことが示されている。本論文では、テキストから画像への変換モデルから、ユーザのプロンプトを条件として概念を消去するのではなく、無条件に概念を消去することに着目する。まず、入力に依存した消去方法と比較して、タスクベクトル(TV)を使用した概念消去は、学習中には見られない予期せぬユーザー入力に対してより頑健であることを示す。しかし、TVに基づく消去は、特に必要とされる編集強度が未知の場合、編集モデルのコア性能にも影響を与える可能性がある。このため、TV編集の必要強度を推定するために、Diverse Inversionと呼ばれる手法を提案する。多様な逆変換は、モデル入力空間の中から、ターゲット概念の生成を誘導する単語の埋め込みの大きな集合を見つける。このセットの多様性を促進することで、予期せぬプロンプトに対してより頑健な推定が可能になる。最後に、多様な逆変換により、モデルの重みの部分集合にのみTV編集を適用することが可能になり、モデルのコア機能をより良く維持しながら消去機能を強化できることを示す。

要約(オリジナル)

With the rapid growth of text-to-image models, a variety of techniques have been suggested to prevent undesirable image generations. Yet, these methods often only protect against specific user prompts and have been shown to allow unsafe generations with other inputs. Here we focus on unconditionally erasing a concept from a text-to-image model rather than conditioning the erasure on the user’s prompt. We first show that compared to input-dependent erasure methods, concept erasure that uses Task Vectors (TV) is more robust to unexpected user inputs, not seen during training. However, TV-based erasure can also affect the core performance of the edited model, particularly when the required edit strength is unknown. To this end, we propose a method called Diverse Inversion, which we use to estimate the required strength of the TV edit. Diverse Inversion finds within the model input space a large set of word embeddings, each of which induces the generation of the target concept. We find that encouraging diversity in the set makes our estimation more robust to unexpected prompts. Finally, we show that Diverse Inversion enables us to apply a TV edit only to a subset of the model weights, enhancing the erasure capabilities while better maintaining the core functionality of the model.

arxiv情報

著者 Minh Pham,Kelly O. Marshall,Chinmay Hegde,Niv Cohen
発行日 2024-04-04 17:52:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク