DiffMorpher: Unleashing the Capability of Diffusion Models for Image Morphing

要約

拡散モデルは、これまでの生成モデルを上回る驚異的な画質生成を実現しました。
ただし、GAN と比較した場合の拡散モデルの顕著な制限は、高度に構造化されていない潜在空間のため、2 つの画像サンプル間をスムーズに補間することが難しいことです。
このようなスムーズな補間は、多くのアプリケーションで画像モーフィング タスクのソリューションとして自然に機能するため、興味深いものです。
この研究では、拡散モデルを使用してスムーズで自然な画像補間を可能にする最初のアプローチである DiffMorpher を紹介します。
私たちの重要なアイデアは、2 つの LoRA をそれぞれに適合させることで 2 つの画像のセマンティクスをキャプチャし、LoRA パラメーターと潜在ノイズの両方の間を補間して、アノテーションを必要とせずに対応関係が自動的に現れるスムーズなセマンティクスの移行を保証することです。
さらに、連続画像間の滑らかさをさらに高めるために、アテンション補間および注入技術と新しいサンプリング スケジュールを提案します。
広範な実験により、DiffMorpher がさまざまなオブジェクト カテゴリにわたって以前の方法よりもはるかに優れた画像モーフィング効果を実現し、拡散モデルと GAN を区別する重要な機能ギャップを埋めることが実証されました。

要約(オリジナル)

Diffusion models have achieved remarkable image generation quality surpassing previous generative models. However, a notable limitation of diffusion models, in comparison to GANs, is their difficulty in smoothly interpolating between two image samples, due to their highly unstructured latent space. Such a smooth interpolation is intriguing as it naturally serves as a solution for the image morphing task with many applications. In this work, we present DiffMorpher, the first approach enabling smooth and natural image interpolation using diffusion models. Our key idea is to capture the semantics of the two images by fitting two LoRAs to them respectively, and interpolate between both the LoRA parameters and the latent noises to ensure a smooth semantic transition, where correspondence automatically emerges without the need for annotation. In addition, we propose an attention interpolation and injection technique and a new sampling schedule to further enhance the smoothness between consecutive images. Extensive experiments demonstrate that DiffMorpher achieves starkly better image morphing effects than previous methods across a variety of object categories, bridging a critical functional gap that distinguished diffusion models from GANs.

arxiv情報

著者 Kaiwen Zhang,Yifan Zhou,Xudong Xu,Xingang Pan,Bo Dai
発行日 2023-12-12 16:28:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク