要約
タイトル:DATID-3D:テキストから画像拡散を用いた多様性保存ドメイン適応法を用いた3D生成モデル
要約:
– 近年の3D生成モデルは、高解像度のフォトリアリスティックなイメージを合成し、ビューの一貫性と詳細な3Dシェイプを実現することで、卓越したパフォーマンスを発揮している。
– しかしながら、多様なドメインのためにそれらのモデルをトレーニングすることは課題であり、大量のトレーニングイメージとカメラの分布情報が必要である。
– CLIP(対照的言語-イメージプレトレーニング)を活用することで、2D生成モデルを異なるスタイルの他のドメインのモデルに変換するためのテキストガイドドドメイン適応法は、それらのドメインのための大規模なデータセットを収集しないで済むので、印象的なパフォーマンスを発揮している。
– しかし、問題点がある。CLIPのテキストエンコーダーの決定論的な性質により、元々の生成モデルのサンプルの多様性はドメイン適応された生成モデルで十分に保存されていない。
– 3D生成モデルの場合、catastrophic diversity loss(長期の多様性の損失)やテキスト-イメージ対応の下位互換性、そして画像の品質の悪さなどにより、テキストガイドドドメイン適応法はさらに課題があります。
– 本論文では、追加の画像とターゲットドメインのカメラ情報を収集することなく、テキストプロンプトごとに多様な画像を合成できるテキストから画像拡散モデルを使用した、3D生成モデルに合わせたドメイン適応法DATID-3Dを提案している。
– 先行研究のテキストガイドキドドメイン適応法の3D拡張にはない、弊社の画期的なパイプラインにより、ソースドメインの最新鋭の3Dジェネレータを微調整して、追加のデータを必要とせずに、テキストガイドターゲットドメインの高解像度かつ多視点連続的イメージを合成できる。
– さらに、手元にあるものだけを用いた1回のインスタンス選択適応や、単一ビューの操作可能な3D再構築など、多様性をフルに活用した多様な3Dイメージの操作を提案し実証している。
要約(オリジナル)
Recent 3D generative models have achieved remarkable performance in synthesizing high resolution photorealistic images with view consistency and detailed 3D shapes, but training them for diverse domains is challenging since it requires massive training images and their camera distribution information. Text-guided domain adaptation methods have shown impressive performance on converting the 2D generative model on one domain into the models on other domains with different styles by leveraging the CLIP (Contrastive Language-Image Pre-training), rather than collecting massive datasets for those domains. However, one drawback of them is that the sample diversity in the original generative model is not well-preserved in the domain-adapted generative models due to the deterministic nature of the CLIP text encoder. Text-guided domain adaptation will be even more challenging for 3D generative models not only because of catastrophic diversity loss, but also because of inferior text-image correspondence and poor image quality. Here we propose DATID-3D, a domain adaptation method tailored for 3D generative models using text-to-image diffusion models that can synthesize diverse images per text prompt without collecting additional images and camera information for the target domain. Unlike 3D extensions of prior text-guided domain adaptation methods, our novel pipeline was able to fine-tune the state-of-the-art 3D generator of the source domain to synthesize high resolution, multi-view consistent images in text-guided targeted domains without additional data, outperforming the existing text-guided domain adaptation methods in diversity and text-image correspondence. Furthermore, we propose and demonstrate diverse 3D image manipulations such as one-shot instance-selected adaptation and single-view manipulated 3D reconstruction to fully enjoy diversity in text.
arxiv情報
著者 | Gwanghyun Kim,Se Young Chun |
発行日 | 2023-03-31 02:15:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI