DATID-3D: Diversity-Preserved Domain Adaptation Using Text-to-Image Diffusion for 3D Generative Model

要約

最近の 3D 生成モデルは、ビューの一貫性と詳細な 3D 形状を備えた高解像度の写真のようにリアルな画像を合成する際に驚くべきパフォーマンスを達成しましたが、膨大なトレーニング画像とそのカメラ分布情報が必要になるため、多様なドメイン向けにモデルをトレーニングすることは困難です。
テキストガイドによるドメイン適応法は、CLIP (Contrastive Language-Image Pre-training) を活用することで、あるドメインの 2D 生成モデルを異なるスタイルの他のドメインのモデルに変換する際に、それらのドメインの大量のデータセットを収集するのではなく、優れたパフォーマンスを示しています。
.
ただし、それらの欠点の 1 つは、CLIP テキスト エンコーダーの決定論的な性質により、元の生成モデルのサンプルの多様性が、ドメインに適応した生成モデルで十分に保存されないことです。
壊滅的な多様性の損失のためだけでなく、テキストと画像の対応が劣り、画質が悪いため、テキストガイドによるドメイン適応は、3D 生成モデルにとってさらに困難になります。
ここでは、ターゲットドメインの追加の画像やカメラ情報を収集することなく、テキストプロンプトごとに多様な画像を合成できるテキストから画像への拡散モデルを使用して、3D 生成モデル用に調整されたドメイン適応方法である DATID-3D を提案します。
以前のテキスト ガイド ドメイン適応方法の 3D 拡張とは異なり、私たちの新しいパイプラインは、ソース ドメインの最先端の 3D ジェネレーターを微調整して、テキスト ガイド ターゲットで高解像度のマルチビューの一貫した画像を合成することができました。
追加データなしのドメインであり、多様性とテキストと画像の対応において、既存のテキストガイド付きドメイン適応方法よりも優れています。
さらに、テキストの多様性を十分に楽しむために、ワンショット インスタンス選択アダプテーションやシングル ビュー操作による 3D 再構成など、さまざまな 3D 画像操作を提案および実証します。

要約(オリジナル)

Recent 3D generative models have achieved remarkable performance in synthesizing high resolution photorealistic images with view consistency and detailed 3D shapes, but training them for diverse domains is challenging since it requires massive training images and their camera distribution information. Text-guided domain adaptation methods have shown impressive performance on converting the 2D generative model on one domain into the models on other domains with different styles by leveraging the CLIP (Contrastive Language-Image Pre-training), rather than collecting massive datasets for those domains. However, one drawback of them is that the sample diversity in the original generative model is not well-preserved in the domain-adapted generative models due to the deterministic nature of the CLIP text encoder. Text-guided domain adaptation will be even more challenging for 3D generative models not only because of catastrophic diversity loss, but also because of inferior text-image correspondence and poor image quality. Here we propose DATID-3D, a domain adaptation method tailored for 3D generative models using text-to-image diffusion models that can synthesize diverse images per text prompt without collecting additional images and camera information for the target domain. Unlike 3D extensions of prior text-guided domain adaptation methods, our novel pipeline was able to fine-tune the state-of-the-art 3D generator of the source domain to synthesize high resolution, multi-view consistent images in text-guided targeted domains without additional data, outperforming the existing text-guided domain adaptation methods in diversity and text-image correspondence. Furthermore, we propose and demonstrate diverse 3D image manipulations such as one-shot instance-selected adaptation and single-view manipulated 3D reconstruction to fully enjoy diversity in text.

arxiv情報

著者 Gwanghyun Kim,Se Young Chun
発行日 2022-11-29 16:54:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク