Latent Space Editing in Transformer-Based Flow Matching

要約

この論文では、生成モデルによる画像編集を目指しています。
フロー マッチングは、シンプルで効率的なトレーニングという利点を提供する新しい生成モデリング手法です。
同時に、生成モデリングのスケーラビリティとパフォーマンスを向上させるために、一般的に使用されている UNet に代わる新しいトランスフォーマー ベースの U-ViT が最近提案されました。
したがって、トランスバックボーンを使用したフローマッチングは、スケーラブルで高品質な生成モデリングの可能性を提供しますが、その潜在的な構造と編集能力はまだ不明です。
したがって、この設定を採用し、潜在空間操作を通じて画像を編集する方法を検討します。
$u$ スペースと呼ばれる、制御可能、累積的、構成可能な方法で操作できる編集スペースを導入します。
さらに、より効率的な適応ステップサイズ ODE ソルバーによるサンプリングを可能にする、カスタマイズされたサンプリング ソリューションを提案します。
最後に、テキスト プロンプトを使用してきめ細かく微妙な編集を実現するための、単純かつ強力な方法を提案しました。
私たちのフレームワークはシンプルかつ効率的でありながら、元のコンテンツの本質を維持しながら画像を編集する際に非常に効果的です。
私たちのコードは https://taohu.me/lfm/ で公開されます。

要約(オリジナル)

This paper strives for image editing via generative models. Flow Matching is an emerging generative modeling technique that offers the advantage of simple and efficient training. Simultaneously, a new transformer-based U-ViT has recently been proposed to replace the commonly used UNet for better scalability and performance in generative modeling. Hence, Flow Matching with a transformer backbone offers the potential for scalable and high-quality generative modeling, but their latent structure and editing ability are as of yet unknown. Hence, we adopt this setting and explore how to edit images through latent space manipulation. We introduce an editing space, which we call $u$-space, that can be manipulated in a controllable, accumulative, and composable manner. Additionally, we propose a tailored sampling solution to enable sampling with the more efficient adaptive step-size ODE solvers. Lastly, we put forth a straightforward yet powerful method for achieving fine-grained and nuanced editing using text prompts. Our framework is simple and efficient, all while being highly effective at editing images while preserving the essence of the original content. Our code will be publicly available at https://taohu.me/lfm/

arxiv情報

著者 Vincent Tao Hu,David W Zhang,Pascal Mettes,Meng Tang,Deli Zhao,Cees G. M. Snoek
発行日 2023-12-17 21:49:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク