要約
最近の研究では、自然言語を使用して 3D 形状を生成および編集できることが実証されています。
ただし、これらの方法では、忠実性と多様性が制限された形状が生成されます。
CLIP-Sculptor を紹介します。これは、トレーニング中に (テキスト、形状) ペアを必要とせずに、高忠実度で多様な 3D 形状を作成することで、これらの制約に対処する方法です。
CLIP-Sculptor は、最初に低次元の潜在空間で生成し、次に形状忠実度を向上させるためにより高い解像度にアップスケールする多重解像度アプローチでこれを実現します。
形状の多様性を向上させるために、CLIP の画像テキスト埋め込み空間で条件付けされた変換器を使用してモデル化された離散潜在空間を使用します。
また、精度と多様性のトレードオフを改善する、分類子を使用しないガイダンスの新しいバリエーションも紹介します。
最後に、CLIP-Sculptor が最先端のベースラインを上回るパフォーマンスを実証する広範な実験を実行します。
コードは https://ivl.cs.brown.edu/#/projects/clip-sculptor で入手できます。
要約(オリジナル)
Recent works have demonstrated that natural language can be used to generate and edit 3D shapes. However, these methods generate shapes with limited fidelity and diversity. We introduce CLIP-Sculptor, a method to address these constraints by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs during training. CLIP-Sculptor achieves this in a multi-resolution approach that first generates in a low-dimensional latent space and then upscales to a higher resolution for improved shape fidelity. For improved shape diversity, we use a discrete latent space which is modeled using a transformer conditioned on CLIP’s image-text embedding space. We also present a novel variant of classifier-free guidance, which improves the accuracy-diversity trade-off. Finally, we perform extensive experiments demonstrating that CLIP-Sculptor outperforms state-of-the-art baselines. The code is available at https://ivl.cs.brown.edu/#/projects/clip-sculptor.
arxiv情報
著者 | Aditya Sanghi,Rao Fu,Vivian Liu,Karl Willis,Hooman Shayani,Amir Hosein Khasahmadi,Srinath Sridhar,Daniel Ritchie |
発行日 | 2023-05-24 16:04:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google