Diffusion Model-Based Image Editing: A Survey

要約

ノイズ除去拡散モデルは、さまざまな画像生成および編集タスクのための強力なツールとして登場し、無条件または入力条件付きの方法でビジュアル コンテンツの合成を容易にします。
彼らの背後にある中心的なアイデアは、画像に徐々にノイズを追加するプロセスを逆転させて、複雑な分布から高品質のサンプルを生成できるようにすることです。
この調査では、画像編集に拡散モデルを使用する既存の方法の徹底的な概要を提供し、この分野の理論的側面と実践的側面の両方をカバーします。
私たちは、学習戦略、ユーザー入力条件、実行可能な一連の特定の編集タスクなど、複数の観点からこれらの作品を徹底的に分析および分類します。
さらに、画像のインペインティングとアウトペインティングに特別な注意を払い、以前の伝統的なコンテキスト駆動型と現在のマルチモーダルな条件付き手法の両方を調査し、それらの方法論の包括的な分析を提供します。
テキストガイドによる画像編集アルゴリズムのパフォーマンスをさらに評価するために、革新的な指標である LMM スコアを特徴とする系統的なベンチマークである EditEval を提案します。
最後に、現在の限界に対処し、将来の研究の潜在的な方向性をいくつか想定します。
付属のリポジトリは https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods でリリースされます。

要約(オリジナル)

Denoising diffusion models have emerged as a powerful tool for various image generation and editing tasks, facilitating the synthesis of visual content in an unconditional or input-conditional manner. The core idea behind them is learning to reverse the process of gradually adding noise to images, allowing them to generate high-quality samples from a complex distribution. In this survey, we provide an exhaustive overview of existing methods using diffusion models for image editing, covering both theoretical and practical aspects in the field. We delve into a thorough analysis and categorization of these works from multiple perspectives, including learning strategies, user-input conditions, and the array of specific editing tasks that can be accomplished. In addition, we pay special attention to image inpainting and outpainting, and explore both earlier traditional context-driven and current multimodal conditional methods, offering a comprehensive analysis of their methodologies. To further evaluate the performance of text-guided image editing algorithms, we propose a systematic benchmark, EditEval, featuring an innovative metric, LMM Score. Finally, we address current limitations and envision some potential directions for future research. The accompanying repository is released at https://github.com/SiatMMLab/Awesome-Diffusion-Model-Based-Image-Editing-Methods.

arxiv情報

著者 Yi Huang,Jiancheng Huang,Yifan Liu,Mingfu Yan,Jiaxi Lv,Jianzhuang Liu,Wei Xiong,He Zhang,Shifeng Chen,Liangliang Cao
発行日 2024-02-27 14:07:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク