RotationDrag: Point-based Image Editing with Rotated Diffusion Features

要約

画像編集の分野では、画像の忠実性を維持しながら画像コンテンツを正確かつユーザーフレンドリーに操作することが常に重要です。
生成モデルの力のおかげで、最近のポイントベースの画像編集方法では、ユーザーはいくつかの制御点をクリックするだけで、汎用性の高い画像コンテンツをインタラクティブに変更できます。
しかし、上記の編集プロセスは通常、初期点から目標点までの動作監視ステップにおいて特徴が一定に保たれるという仮定に基づいています。
この研究では、拡散モデルの特徴空間で包括的な調査を行い、面内回転の下で特徴が急激に変化することを発見しました。
これに基づいて、RotationDrag という名前の新しいアプローチを提案します。これは、ユーザーが画像コンテンツを面内で回転する場合に、ポイントベースの画像編集パフォーマンスを大幅に向上させます。
私たちの方法では、回転された画像の特徴マップを利用することでハンドル ポイントをより正確に追跡し、正確な最適化と高い画像忠実度を保証します。
さらに、RotateBench と呼ばれる面内回転に焦点を当てたベンチマークを構築します。これは、実際の画像と生成された画像の両方で、面内回転シナリオの下でポイントベースの画像編集方法のパフォーマンスを評価する最初のベンチマークです。
徹底的なユーザー調査により、DragDiffusion ベースラインと他の既存の拡散ベースの方法を比較して、ユーザーが達成しようとしている面内回転を達成する優れた機能が実証されています。
コードと実験結果については、プロジェクト ページ https://github.com/Tony-Lowe/RotationDrag を参照してください。

要約(オリジナル)

A precise and user-friendly manipulation of image content while preserving image fidelity has always been crucial to the field of image editing. Thanks to the power of generative models, recent point-based image editing methods allow users to interactively change the image content with high generalizability by clicking several control points. But the above mentioned editing process is usually based on the assumption that features stay constant in the motion supervision step from initial to target points. In this work, we conduct a comprehensive investigation in the feature space of diffusion models, and find that features change acutely under in-plane rotation. Based on this, we propose a novel approach named RotationDrag, which significantly improves point-based image editing performance when users intend to in-plane rotate the image content. Our method tracks handle points more precisely by utilizing the feature map of the rotated images, thus ensuring precise optimization and high image fidelity. Furthermore, we build a in-plane rotation focused benchmark called RotateBench, the first benchmark to evaluate the performance of point-based image editing method under in-plane rotation scenario on both real images and generated images. A thorough user study demonstrates the superior capability in accomplishing in-plane rotation that users intend to achieve, comparing the DragDiffusion baseline and other existing diffusion-based methods. See the project page https://github.com/Tony-Lowe/RotationDrag for code and experiment results.

arxiv情報

著者 Minxing Luo,Wentao Cheng,Jian Yang
発行日 2024-01-12 08:24:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク