要約
バニラ イメージの補完アプローチは、妥当な生成に使用できる参照情報が限られているため、大きな欠落領域に敏感です。
これを軽減するために、既存の方法では、画像を完成させるためのガイドとして追加のキューを組み込んでいます。
改善にもかかわらず、これらのアプローチは多くの場合、単一のモダリティ (セグメンテーションやスケッチ マップなど) の使用に制限されており、より妥当な完成を実現するためにマルチモダリティを活用する際のスケーラビリティに欠けています。
この論文では、MaGIC と呼ばれる、マルチモーダル ガイド付き画像補完のための、シンプルかつ効果的な新しい方法を提案します。この方法は、ガイドとして幅広い単一モダリティ (例: テキスト、キャニー エッジ、スケッチ、セグメンテーション、リファレンスなど) をサポートするだけではありません。
画像、深度、ポーズなど)だけでなく、画像を完成させるためにこれらのモダリティの任意にカスタマイズされた組み合わせ(つまり、任意のマルチモダリティ)にも適応します。
MaGIC を構築するために、まず、単一モーダルのガイド付き画像を完成させるために、単一モーダル信号を U-Net デノイザーに注入するモダリティ固有の条件付き U-Net (MCU-Net) を導入します。
次に、潜在空間での勾配ガイダンスを通じて複数の学習済み MCU ネットでエンコードされたモダリティ信号を活用する一貫したモダリティ ブレンディング (CMB) 手法を考案します。
当社の CMB はトレーニングが不要であるため、さまざまなモダリティの面倒な共同再トレーニングを回避できます。これが、新しいモダリティを完了するために優れた柔軟性を実現する MaGIC の秘密です。
実験では、最先端技術に対する MaGIC の優位性と、イン/アウトペイントやローカル編集を含むさまざまな完成タスクへの MaGIC の一般化が示されています。
コードとモデルを含む私たちのプロジェクトは、yeates.github.io/MaGIC-Page/ で入手できます。
要約(オリジナル)
The vanilla image completion approaches are sensitive to the large missing regions due to limited available reference information for plausible generation. To mitigate this, existing methods incorporate the extra cue as a guidance for image completion. Despite improvements, these approaches are often restricted to employing a single modality (e.g., segmentation or sketch maps), which lacks scalability in leveraging multi-modality for more plausible completion. In this paper, we propose a novel, simple yet effective method for Multi-modal Guided Image Completion, dubbed MaGIC, which not only supports a wide range of single modality as the guidance (e.g., text, canny edge, sketch, segmentation, reference image, depth, and pose), but also adapts to arbitrarily customized combination of these modalities (i.e., arbitrary multi-modality) for image completion. For building MaGIC, we first introduce a modality-specific conditional U-Net (MCU-Net) that injects single-modal signal into a U-Net denoiser for single-modal guided image completion. Then, we devise a consistent modality blending (CMB) method to leverage modality signals encoded in multiple learned MCU-Nets through gradient guidance in latent space. Our CMB is training-free, and hence avoids the cumbersome joint re-training of different modalities, which is the secret of MaGIC to achieve exceptional flexibility in accommodating new modalities for completion. Experiments show the superiority of MaGIC over state-of-arts and its generalization to various completion tasks including in/out-painting and local editing. Our project with code and models is available at yeates.github.io/MaGIC-Page/.
arxiv情報
| 著者 | Yongsheng Yu,Hao Wang,Tiejian Luo,Heng Fan,Libo Zhang | 
| 発行日 | 2023-05-19 16:53:15+00:00 | 
| arxivサイト | arxiv_id(pdf) | 
提供元, 利用サービス
arxiv.jp, Google
