要約
条件付き 3D 生成は大幅に進歩しており、テキストや 2D 画像などの入力から 3D コンテンツを自由に作成できるようになります。
ただし、これまでのアプローチでは、推論効率が低く、生成カテゴリが制限され、ダウンストリーム アプリケーションが制限されているという問題がありました。
この研究では、さまざまな 3D 表現が生成の品質と効率に及ぼす影響を再検討します。
我々は、Voxel-Point Progressive Representation (VPP) によるプログレッシブ生成手法を提案します。
VPP は、提案されたボクセル セマンティック ジェネレーターの構造化ボクセル表現と、ポイント アップサンプラーの非構造化ポイント表現のスパース性を利用して、マルチカテゴリ オブジェクトの効率的な生成を可能にします。
VPP は高品質の 8K 点群を 0.2 秒以内に生成できます。
さらに、マスクされた生成 Transformer により、生成、編集、完了、事前トレーニングなどのさまざまな 3D ダウンストリーム タスクが可能になります。
広範な実験により、VPP がさまざまなカテゴリにわたって高忠実度で多様な 3D 形状を効率的に生成し、同時に優れた表現転送パフォーマンスを発揮することが実証されました。
コードは \url{https://github.com/qizekun/VPP} でリリースされます。
要約(オリジナル)
Conditional 3D generation is undergoing a significant advancement, enabling the free creation of 3D content from inputs such as text or 2D images. However, previous approaches have suffered from low inference efficiency, limited generation categories, and restricted downstream applications. In this work, we revisit the impact of different 3D representations on generation quality and efficiency. We propose a progressive generation method through Voxel-Point Progressive Representation (VPP). VPP leverages structured voxel representation in the proposed Voxel Semantic Generator and the sparsity of unstructured point representation in the Point Upsampler, enabling efficient generation of multi-category objects. VPP can generate high-quality 8K point clouds within 0.2 seconds. Additionally, the masked generation Transformer allows for various 3D downstream tasks, such as generation, editing, completion, and pre-training. Extensive experiments demonstrate that VPP efficiently generates high-fidelity and diverse 3D shapes across different categories, while also exhibiting excellent representation transfer performance. Codes will be released at \url{https://github.com/qizekun/VPP}.
arxiv情報
著者 | Zekun Qi,Muzhou Yu,Runpei Dong,Kaisheng Ma |
発行日 | 2023-10-20 16:14:12+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google