要約
言語は、私たちが身の回りの3次元世界を表現するための主要な手段の1つである。テキストから2次元画像への合成は急速に進歩しているが、テキストから3次元形状への合成は、テキストと形状のペアデータの不足により、同様の進歩が妨げられている。さらに、テキストから形状を生成する既存の手法は、形状の多様性と忠実性に限界がある。本論文では、これらの制限を解決するために、学習用の(テキスト、形状)のペアを必要とせず、高忠実度で多様な3次元形状を生成する手法であるTextCraftを紹介します。TextCraftはCLIPを用い、まず低次元の潜在空間で生成し、その後高解像度にアップスケーリングすることで生成される形状の忠実度を向上させるという多重解像度アプローチを用いることでこれを実現する。また、形状の多様性を向上させるために、CLIPによって誘導された交換可能な画像-テキスト埋め込み空間を条件として、双方向変換器を用いてモデル化された離散潜在空間を使用する。さらに、分類器を用いない誘導の新しいバリエーションを提示し、精度と多様性のトレードオフをさらに改善する。最後に、TextCraftが最新のベースラインを上回る性能を持つことを実証するため、広範な実験を行う。
要約(オリジナル)
Language is one of the primary means by which we describe the 3D world around us. While rapid progress has been made in text-to-2D-image synthesis, similar progress in text-to-3D-shape synthesis has been hindered by the lack of paired (text, shape) data. Moreover, extant methods for text-to-shape generation have limited shape diversity and fidelity. We introduce TextCraft, a method to address these limitations by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs for training. TextCraft achieves this by using CLIP and using a multi-resolution approach by first generating in a low-dimensional latent space and then upscaling to a higher resolution, improving the fidelity of the generated shape. To improve shape diversity, we use a discrete latent space which is modelled using a bidirectional transformer conditioned on the interchangeable image-text embedding space induced by CLIP. Moreover, we present a novel variant of classifier-free guidance, which further improves the accuracy-diversity trade-off. Finally, we perform extensive experiments that demonstrate that TextCraft outperforms state-of-the-art baselines.
arxiv情報
著者 | Aditya Sanghi,Rao Fu,Vivian Liu,Karl Willis,Hooman Shayani,Amir Hosein Khasahmadi,Srinath Sridhar,Daniel Ritchie |
発行日 | 2022-11-04 17:25:45+00:00 |
arxivサイト | arxiv_id(pdf) |