DICE: Discrete Inversion Enabling Controllable Editing for Multinomial Diffusion and Masked Generative Models

要約

離散拡散モデルは、画像生成やマスクされた言語モデリングなどのタスクでは成功を収めていますが、制御されたコンテンツ編集では限界に直面しています。
多項拡散やマスク生成モデルなどの離散拡散モデルの正確な逆変換を可能にする最初のアプローチである DICE (Discrete Inversion for Controllable Editing) を紹介します。
逆拡散プロセス中にノイズ シーケンスとマスキング パターンを記録することにより、DICE は、事前定義されたマスクや注意力の操作を必要とせずに、離散データの正確な再構成と柔軟な編集を可能にします。
VQ-Difffusion、Paella、RoBERTa などのモデルで評価し、画像とテキストの両方のドメインにわたる DICE の有効性を実証します。
私たちの結果は、DICE が高いデータ忠実度を維持しながら編集機能を強化し、離散空間でのきめ細かいコンテンツ操作の新たな機会を提供することを示しています。
プロジェクトの Web ページについては、https://hexiaoxiao-cs.github.io/DICE/ を参照してください。

要約(オリジナル)

Discrete diffusion models have achieved success in tasks like image generation and masked language modeling but face limitations in controlled content editing. We introduce DICE (Discrete Inversion for Controllable Editing), the first approach to enable precise inversion for discrete diffusion models, including multinomial diffusion and masked generative models. By recording noise sequences and masking patterns during the reverse diffusion process, DICE enables accurate reconstruction and flexible editing of discrete data without the need for predefined masks or attention manipulation. We demonstrate the effectiveness of DICE across both image and text domains, evaluating it on models such as VQ-Diffusion, Paella, and RoBERTa. Our results show that DICE preserves high data fidelity while enhancing editing capabilities, offering new opportunities for fine-grained content manipulation in discrete spaces. For project webpage, see https://hexiaoxiao-cs.github.io/DICE/.

arxiv情報

著者 Xiaoxiao He,Ligong Han,Quan Dao,Song Wen,Minhao Bai,Di Liu,Han Zhang,Martin Renqiang Min,Felix Juefei-Xu,Chaowei Tan,Bo Liu,Kang Li,Hongdong Li,Junzhou Huang,Faez Ahmed,Akash Srivastava,Dimitris Metaxas
発行日 2024-10-10 17:59:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク