Multimodal Image Synthesis and Editing: A Survey

要約

タイトル:Multimodal Image Synthesis and Editing:調査

要約:

– 現実世界には様々なモダリティの情報が存在するため、コンピュータビジョンおよび深層学習の研究では、多モーダル情報の効果的な相互作用と融合が多モーダルデータの作成および認識に重要な役割を果たしています。
– 多モーダル情報の相互作用をモデリングする優れた能力を持つため、多モーダル画像合成と編集は最近の研究トピックとなっています。
– ネットワークトレーニングのための明示的なガイダンスを提供する代わりに、多モーダルガイダンスは画像合成および編集に対して直感的かつ柔軟な手段を提供します。
– 一方、この分野は、多モーダル特徴の整合性、高解像度画像の合成、忠実な評価指標など、いくつかの課題に直面しています。
– この調査では、最近の多モーダル画像合成および編集の進歩を包括的に状況設定し、データモダリティおよびモデルタイプに応じた分類を定式化しています。
– まず、画像合成および編集の異なるガイダンスモダリティについて紹介し、その後、モデルタイプに応じて多モーダル画像合成および編集アプローチを詳細に説明します。
– その後、ベンチマークデータセットおよび評価指標、およびそれらに対応する実験結果について説明します。
– 最後に、現在の研究課題や将来的な研究方向に関する洞察を提供します。本調査に関連するプロジェクトはhttps://github.com/fnzhan/MISEで利用可能です。

要約(オリジナル)

As information exists in various modalities in real world, effective interaction and fusion among multimodal information plays a key role for the creation and perception of multimodal data in computer vision and deep learning research. With superb power in modeling the interaction among multimodal information, multimodal image synthesis and editing has become a hot research topic in recent years. Instead of providing explicit guidance for network training, multimodal guidance offers intuitive and flexible means for image synthesis and editing. On the other hand, this field is also facing several challenges in alignment of multimodal features, synthesis of high-resolution images, faithful evaluation metrics, etc. In this survey, we comprehensively contextualize the advance of the recent multimodal image synthesis and editing and formulate taxonomies according to data modalities and model types. We start with an introduction to different guidance modalities in image synthesis and editing, and then describe multimodal image synthesis and editing approaches extensively according to their model types. After that, we describe benchmark datasets and evaluation metrics as well as corresponding experimental results. Finally, we provide insights about the current research challenges and possible directions for future research. A project associated with this survey is available at https://github.com/fnzhan/MISE.

arxiv情報

著者 Fangneng Zhan,Yingchen Yu,Rongliang Wu,Jiahui Zhang,Shijian Lu,Lingjie Liu,Adam Kortylewski,Christian Theobalt,Eric Xing
発行日 2023-04-24 12:43:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク