SwiftEdit: Lightning Fast Text-Guided Image Editing via One-Step Diffusion

要約

テキスト誘導画像編集の最近の進歩により、ユーザーは単純なテキスト入力を介して画像編集を実行でき、マルチステップ拡散ベースのテキストからイメージモデルの広範な事前層を活用できます。
ただし、これらの方法は、費用のかかるマルチステップの反転とサンプリングプロセスのために、実際のアプリケーションとデバイス上のアプリケーションに必要な速度需要に達していないことがよくあります。
これに応じて、SwiftEditを紹介します。SwiftEditは、インスタントテキスト誘導画像編集(0.23秒)を実現するシンプルでありながら非常に効率的な編集ツールを紹介します。
Swifteditの進歩は、その2つの斬新な貢献にあります。局所的な画像編集を実行するために、提案された注意再発メカニズムを備えた、反転によるワンステップ画像の再構築を可能にするワンステップの反転フレームワークと、1段階の反転フレームワークです。
Swifteditの有効性と効率性を実証するために、広範な実験が提供されます。
特に、SwiftEditはインスタントテキスト誘導画像編集を可能にします。これは、以前のマルチステップ方法(少なくとも50倍高速)よりも非常に高速であり、編集結果で競争力のあるパフォーマンスを維持します。
プロジェクトページはhttps://swift-edit.github.io/にあります

要約(オリジナル)

Recent advances in text-guided image editing enable users to perform image edits through simple text inputs, leveraging the extensive priors of multi-step diffusion-based text-to-image models. However, these methods often fall short of the speed demands required for real-world and on-device applications due to the costly multi-step inversion and sampling process involved. In response to this, we introduce SwiftEdit, a simple yet highly efficient editing tool that achieve instant text-guided image editing (in 0.23s). The advancement of SwiftEdit lies in its two novel contributions: a one-step inversion framework that enables one-step image reconstruction via inversion and a mask-guided editing technique with our proposed attention rescaling mechanism to perform localized image editing. Extensive experiments are provided to demonstrate the effectiveness and efficiency of SwiftEdit. In particular, SwiftEdit enables instant text-guided image editing, which is extremely faster than previous multi-step methods (at least 50 times faster) while maintain a competitive performance in editing results. Our project page is at: https://swift-edit.github.io/

arxiv情報

著者 Trong-Tung Nguyen,Quang Nguyen,Khoi Nguyen,Anh Tran,Cuong Pham
発行日 2025-06-02 09:59:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク