InstantDrag: Improving Interactivity in Drag-based Image Editing

要約

ドラッグベースの画像編集は、その対話性と正確さから最近人気が高まっています。
ただし、テキストから画像へのモデルは 1 秒以内にサンプルを生成できるにもかかわらず、画像コンテンツを維持しながらユーザー インタラクションを正確に反映するという課題があるため、ドラッグ編集は依然として遅れています。
既存のアプローチの中には、計算量の多い画像ごとの最適化や複雑なガイダンスベースの手法に依存しているものがあり、可動領域のマスクやテキストプロンプトなどの追加入力が必要となるため、編集プロセスの対話性が損なわれます。
インタラクティブ性と速度を強化する最適化不要のパイプラインである InstantDrag を紹介します。入力として必要なのは画像とドラッグ命令だけです。
InstantDrag は、慎重に設計された 2 つのネットワーク、抗力条件付きオプティカル フロー ジェネレーター (FlowGen) とオプティカル フロー条件付き拡散モデル (FlowDiffusion) で構成されています。
InstantDrag は、タスクをモーション生成とモーション条件付き画像生成に分解することで、現実世界のビデオ データセットにおけるドラッグ ベースの画像編集のためのモーション ダイナミクスを学習します。
顔のビデオ データセットと一般的なシーンの実験を通じて、マスクやテキスト プロンプトを使用せずに、高速で写真のようにリアルな編集を実行する InstantDrag の機能を実証します。
これらの結果は、ドラッグベースの画像編集を処理する際の私たちのアプローチの効率性を強調し、それがインタラクティブなリアルタイム アプリケーションにとって有望なソリューションとなることを示しています。

要約(オリジナル)

Drag-based image editing has recently gained popularity for its interactivity and precision. However, despite the ability of text-to-image models to generate samples within a second, drag editing still lags behind due to the challenge of accurately reflecting user interaction while maintaining image content. Some existing approaches rely on computationally intensive per-image optimization or intricate guidance-based methods, requiring additional inputs such as masks for movable regions and text prompts, thereby compromising the interactivity of the editing process. We introduce InstantDrag, an optimization-free pipeline that enhances interactivity and speed, requiring only an image and a drag instruction as input. InstantDrag consists of two carefully designed networks: a drag-conditioned optical flow generator (FlowGen) and an optical flow-conditioned diffusion model (FlowDiffusion). InstantDrag learns motion dynamics for drag-based image editing in real-world video datasets by decomposing the task into motion generation and motion-conditioned image generation. We demonstrate InstantDrag’s capability to perform fast, photo-realistic edits without masks or text prompts through experiments on facial video datasets and general scenes. These results highlight the efficiency of our approach in handling drag-based image editing, making it a promising solution for interactive, real-time applications.

arxiv情報

著者 Joonghyuk Shin,Daehyeon Choi,Jaesik Park
発行日 2024-09-13 14:19:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク