Towards Real-time Text-driven Image Manipulation with Unconditional Diffusion Models

要約

タイトル:無条件の拡散モデルを用いたリアルタイムのテキスト駆動型画像操作へ

要約:

– 最近の拡散モデルの進歩により、画像編集のための強力な手段が多く生まれています。
– そのうちの1つが、テキスト記述に応じて画像の意味属性を編集するテキスト駆動型画像操作です。
– 既存の拡散ベースの方法は、広範囲のテキストプロンプトに対して高品質な画像編集を実現していますが、高価で大量の計算リソースを必要とします。
– 本論文では、無条件の拡散モデルに基づくテキスト駆動型編集手法の効率性に取り組み、従来手法よりも4.5〜10倍高速に画像操作の学習を行い、8倍高速に画像操作を適用する新しいアルゴリズムを開発しました。
– 複数のデータセットを用いて人間のアノテーターによる視覚品質と表現力を評価し、論文の手法が高価な方法に負けない品質を実現していることを示しました。
– 最後に、トレーニング済みモデルを4秒でユーザー指定の画像とテキスト記述に適応できることを示し、よりコンパクトな無条件の拡散モデルが人気の高いテキスト条件型の代替手段として考えられることを示しました。

要約(オリジナル)

Recent advances in diffusion models enable many powerful instruments for image editing. One of these instruments is text-driven image manipulations: editing semantic attributes of an image according to the provided text description. % Popular text-conditional diffusion models offer various high-quality image manipulation methods for a broad range of text prompts. Existing diffusion-based methods already achieve high-quality image manipulations for a broad range of text prompts. However, in practice, these methods require high computation costs even with a high-end GPU. This greatly limits potential real-world applications of diffusion-based image editing, especially when running on user devices. In this paper, we address efficiency of the recent text-driven editing methods based on unconditional diffusion models and develop a novel algorithm that learns image manipulations 4.5-10 times faster and applies them 8 times faster. We carefully evaluate the visual quality and expressiveness of our approach on multiple datasets using human annotators. Our experiments demonstrate that our algorithm achieves the quality of much more expensive methods. Finally, we show that our approach can adapt the pretrained model to the user-specified image and text description on the fly just for 4 seconds. In this setting, we notice that more compact unconditional diffusion models can be considered as a rational alternative to the popular text-conditional counterparts.

arxiv情報

著者 Nikita Starodubcev,Dmitry Baranchuk,Valentin Khrulkov,Artem Babenko
発行日 2023-04-10 01:21:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, cs.LG パーマリンク