Negative Token Merging: Image-based Adversarial Feature Guidance

要約

否定的なプロンプトを使用したテキストベースの敵対的誘導は、拡散モデルを望ましくない概念の生成から遠ざけるために広く採用されているアプローチとして浮上しています。
テキストのみを使用して敵対的ガイダンスを実行することは便利ではありますが、複雑な視覚概念を捉えたり、著作権で保護されたキャラクターなどの特定の視覚要素を回避したりするには不十分な場合があります。
この論文では、参照画像またはバッチ内の他の画像からの視覚特徴を直接使用して敵対的誘導を実行することにより、この方向の代替モダリティを初めて探索します。
ネガティブ トークン マージ (NegToMe) を導入します。これは、逆拡散プロセス中に参照画像と生成画像の間で一致する視覚的特徴を選択的に押し離すことにより、画像を通じて敵対的な誘導を実行する、シンプルだが効果的なトレーニング不要のアプローチです。
NegToMe は、使用するリファレンスを調整するだけで、さまざまなアプリケーションを実現します。
特に、同じバッチ内の他の画像を参照として使用する場合、NegToMe は各画像の特徴を他の画像から遠ざけることにより、出力の多様性 (人種、性別、視覚など) を大幅に強化することがわかります。
同様に、
著作権で保護された参照画像を使用すると、NegToMe は著作権で保護されたコンテンツとの視覚的な類似性を 34.57% 削減します。
NegToMe は、わずか数行のコードを使用して実装するのが簡単で、わずかに長い (4% 未満) 推論時間のみを使用し、否定プロンプトの使用をネイティブにサポートしていない Flux などのさまざまな拡散アーキテクチャと互換性があります。
コードは https://negtome.github.io で入手できます。

要約(オリジナル)

Text-based adversarial guidance using a negative prompt has emerged as a widely adopted approach to steer diffusion models away from producing undesired concepts. While useful, performing adversarial guidance using text alone can be insufficient to capture complex visual concepts or avoid specific visual elements like copyrighted characters. In this paper, for the first time we explore an alternate modality in this direction by performing adversarial guidance directly using visual features from a reference image or other images in a batch. We introduce negative token merging (NegToMe), a simple but effective training-free approach which performs adversarial guidance through images by selectively pushing apart matching visual features between reference and generated images during the reverse diffusion process. By simply adjusting the used reference, NegToMe enables a diverse range of applications. Notably, when using other images in same batch as reference, we find that NegToMe significantly enhances output diversity (e.g., racial, gender, visual) by guiding features of each image away from others. Similarly, when used w.r.t. copyrighted reference images, NegToMe reduces visual similarity to copyrighted content by 34.57%. NegToMe is simple to implement using just few-lines of code, uses only marginally higher (<4%) inference time and is compatible with different diffusion architectures, including those like Flux, which don't natively support the use of a negative prompt. Code is available at https://negtome.github.io

arxiv情報

著者 Jaskirat Singh,Lindsey Li,Weijia Shi,Ranjay Krishna,Yejin Choi,Pang Wei Koh,Michael F. Cohen,Stephen Gould,Liang Zheng,Luke Zettlemoyer
発行日 2024-12-05 18:43:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.GR, cs.LG, stat.ML パーマリンク