FastDrag: Manipulate Anything in One Step

要約

生成モデルを使用したドラッグベースの画像編集により、画像コンテンツを正確に制御できるため、ユーザーは数回クリックするだけで画像内のあらゆるものを操作できます。
ただし、一般的な手法では、ドラッグベースの画像編集を実現するために潜在的なセマンティクスの最適化に $n$ ステップの反復を採用するのが一般的ですが、これには時間がかかり、実用的なアプリケーションが制限されます。
本稿では、編集プロセスを高速化するための、新しいワンステップのドラッグベースの画像編集方法、すなわち FastDrag を紹介します。
私たちのアプローチの中心となるのは、潜在空間内の個々のピクセルの位置を調整するために、引き伸ばされた素材の動作をシミュレートする潜在反り関数 (LWF) です。
この革新により、ワンステップの潜在的なセマンティック最適化が実現され、編集速度が大幅に向上します。
一方、LWF を適用した後に出現するヌル領域は、私たちが提案する両側最近傍補間 (BNNI) 戦略によって対処されます。
この戦略は、隣接する領域の同様の特徴を使用してこれらの領域を補間するため、セマンティックな整合性が強化されます。
さらに、拡散サンプリングをガイドするために、拡散反転中にセルフ アテンション モジュールにキーと値のペアとして保存された元の画像からの意味情報を採用することにより、編集された画像と元の画像の間の一貫性を維持する一貫性保持戦略が導入されています。
当社の FastDrag は DragBench データセットで検証され、編集パフォーマンスの向上を実現しながら、既存の方法と比較して処理時間が大幅に改善されることが実証されています。
プロジェクトページ: https://fastdrag-site.github.io/ 。

要約(オリジナル)

Drag-based image editing using generative models provides precise control over image contents, enabling users to manipulate anything in an image with a few clicks. However, prevailing methods typically adopt $n$-step iterations for latent semantic optimization to achieve drag-based image editing, which is time-consuming and limits practical applications. In this paper, we introduce a novel one-step drag-based image editing method, i.e., FastDrag, to accelerate the editing process. Central to our approach is a latent warpage function (LWF), which simulates the behavior of a stretched material to adjust the location of individual pixels within the latent space. This innovation achieves one-step latent semantic optimization and hence significantly promotes editing speeds. Meanwhile, null regions emerging after applying LWF are addressed by our proposed bilateral nearest neighbor interpolation (BNNI) strategy. This strategy interpolates these regions using similar features from neighboring areas, thus enhancing semantic integrity. Additionally, a consistency-preserving strategy is introduced to maintain the consistency between the edited and original images by adopting semantic information from the original image, saved as key and value pairs in self-attention module during diffusion inversion, to guide the diffusion sampling. Our FastDrag is validated on the DragBench dataset, demonstrating substantial improvements in processing time over existing methods, while achieving enhanced editing performance. Project page: https://fastdrag-site.github.io/ .

arxiv情報

著者 Xuanjia Zhao,Jian Guan,Congyi Fan,Dongli Xu,Youtian Lin,Haiwei Pan,Pengming Feng
発行日 2024-10-29 14:09:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク