要約
拡散モデルは、コンテンツの合成と編集の分野に革命をもたらしました。
最近のモデルでは、従来の UNet アーキテクチャが拡散変換器 (DiT) に置き換えられ、トレーニングとサンプリングを改善するためにフロー マッチングが採用されています。
ただし、世代の多様性は限られています。
この研究では、この制限を利用して、アテンション機能の選択的な注入を通じて一貫した画像編集を実行します。
主な課題は、UNet ベースのモデルとは異なり、DiT には粗いものから細かいものへの合成構造がないため、どの層で注入を実行するかが不明確であることです。
したがって、画像形成に不可欠な DiT 内の「重要なレイヤー」を識別する自動方法を提案し、これらのレイヤーが同じメカニズムを使用して、非剛体修正からオブジェクトの追加に至るまで、制御された安定した編集の範囲をどのように容易にするかを実証します。
次に、実画像編集を可能にするために、フロー モデル用の改良された画像反転手法を導入します。
最後に、ユーザー調査とともに定性的および定量的な比較を通じてアプローチを評価し、複数のアプリケーションにわたるその有効性を実証します。
プロジェクト ページは https://omriavrahami.com/stable-flow から入手できます。
要約(オリジナル)
Diffusion models have revolutionized the field of content synthesis and editing. Recent models have replaced the traditional UNet architecture with the Diffusion Transformer (DiT), and employed flow-matching for improved training and sampling. However, they exhibit limited generation diversity. In this work, we leverage this limitation to perform consistent image edits via selective injection of attention features. The main challenge is that, unlike the UNet-based models, DiT lacks a coarse-to-fine synthesis structure, making it unclear in which layers to perform the injection. Therefore, we propose an automatic method to identify ‘vital layers’ within DiT, crucial for image formation, and demonstrate how these layers facilitate a range of controlled stable edits, from non-rigid modifications to object addition, using the same mechanism. Next, to enable real-image editing, we introduce an improved image inversion method for flow models. Finally, we evaluate our approach through qualitative and quantitative comparisons, along with a user study, and demonstrate its effectiveness across multiple applications. The project page is available at https://omriavrahami.com/stable-flow
arxiv情報
著者 | Omri Avrahami,Or Patashnik,Ohad Fried,Egor Nemchinov,Kfir Aberman,Dani Lischinski,Daniel Cohen-Or |
発行日 | 2024-11-21 18:59:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google