FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

要約

事前トレーニングされたテキストから画像への (T2I) 拡散/フロー モデルを使用して実際の画像を編集するには、多くの場合、画像を対応するノイズ マップに反転する必要があります。
ただし、反転だけでは通常、満足のいく結果を得るには不十分であるため、サンプリング プロセスに多くの方法がさらに介入します。
このような方法では結果が向上しますが、モデル アーキテクチャ間でシームレスに移行することはできません。
ここでは、事前トレーニングされた T2I フロー モデルのテキストベースの編集方法である FlowEdit を紹介します。これは、反転や最適化がなく、モデルに依存しません。
私たちの方法は、ソースとターゲットの分布 (ソースとターゲットのテキスト プロンプトに対応する) を直接マッピングする ODE を構築し、反転アプローチよりも低い転送コストを実現します。
これにより、Stable Diffusion 3 と FLUX で説明したように、最先端の結果が得られます。
コードと例はプロジェクトの Web ページで入手できます。

要約(オリジナル)

Editing real images using a pre-trained text-to-image (T2I) diffusion/flow model often involves inverting the image into its corresponding noise map. However, inversion by itself is typically insufficient for obtaining satisfactory results, and therefore many methods additionally intervene in the sampling process. Such methods achieve improved results but are not seamlessly transferable between model architectures. Here, we introduce FlowEdit, a text-based editing method for pre-trained T2I flow models, which is inversion-free, optimization-free and model agnostic. Our method constructs an ODE that directly maps between the source and target distributions (corresponding to the source and target text prompts) and achieves a lower transport cost than the inversion approach. This leads to state-of-the-art results, as we illustrate with Stable Diffusion 3 and FLUX. Code and examples are available on the project’s webpage.

arxiv情報

著者 Vladimir Kulikov,Matan Kleiner,Inbar Huberman-Spiegelglas,Tomer Michaeli
発行日 2024-12-11 18:50:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク