A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models

要約

画像編集は、ユーザーからの特定の要件を満たすために、指定された合成画像または実際の画像を編集することを目的としています。
人工知能生成コンテンツ (AIGC) の有望かつ挑戦的な分野として、近年広く研究されています。
この分野における最近の大きな進歩は、テキストから画像への (T2I) 拡散モデルの開発に基づいており、テキストのプロンプトに従って画像を生成します。
これらのモデルは優れた生成機能を示しており、画像編集に広く使用されているツールとなっています。
T2I ベースの画像編集方法は、編集パフォーマンスを大幅に向上させ、マルチモーダル入力に基づいてコンテンツを変更するためのユーザーフレンドリーなインターフェイスを提供します。
この調査では、T2I 拡散モデルを活用したマルチモーダルガイド付き画像編集技術の包括的なレビューを提供します。
まず、全体的な観点から画像編集の範囲を定義し、さまざまな制御信号と編集シナリオを詳しく説明します。
次に、編集プロセスを形式化し、編集プロセスを 2 つの主要なアルゴリズム ファミリに分類するための統一フレームワークを提案します。
このフレームワークは、ユーザーが特定の目標を達成するための設計スペースを提供します。
続いて、このフレームワーク内の各コンポーネントの詳細な分析を示し、さまざまな組み合わせの特性と適用可能なシナリオを調べます。
トレーニングベースの方法では、ユーザーのガイダンスの下でソース画像をターゲット画像に直接マッピングする方法を学習することを考慮して、それらを個別に説明し、さまざまなシナリオでのソース画像の注入スキームを紹介します。
さらに、ビデオ編集への 2D 技術の適用をレビューし、フレーム間の不一致の解決策を強調します。
最後に、この分野で未解決の課題について議論し、将来の研究の可能性のある方向性を提案します。
https://github.com/xinchengshuai/Awesome-Image-Editing で関連作品を追跡し続けています。

要約(オリジナル)

Image editing aims to edit the given synthetic or real image to meet the specific requirements from users. It is widely studied in recent years as a promising and challenging field of Artificial Intelligence Generative Content (AIGC). Recent significant advancement in this field is based on the development of text-to-image (T2I) diffusion models, which generate images according to text prompts. These models demonstrate remarkable generative capabilities and have become widely used tools for image editing. T2I-based image editing methods significantly enhance editing performance and offer a user-friendly interface for modifying content guided by multimodal inputs. In this survey, we provide a comprehensive review of multimodal-guided image editing techniques that leverage T2I diffusion models. First, we define the scope of image editing from a holistic perspective and detail various control signals and editing scenarios. We then propose a unified framework to formalize the editing process, categorizing it into two primary algorithm families. This framework offers a design space for users to achieve specific goals. Subsequently, we present an in-depth analysis of each component within this framework, examining the characteristics and applicable scenarios of different combinations. Given that training-based methods learn to directly map the source image to target one under user guidance, we discuss them separately, and introduce injection schemes of source image in different scenarios. Additionally, we review the application of 2D techniques to video editing, highlighting solutions for inter-frame inconsistency. Finally, we discuss open challenges in the field and suggest potential future research directions. We keep tracing related works at https://github.com/xinchengshuai/Awesome-Image-Editing.

arxiv情報

著者 Xincheng Shuai,Henghui Ding,Xingjun Ma,Rongcheng Tu,Yu-Gang Jiang,Dacheng Tao
発行日 2024-06-20 17:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク