要約
大規模な 3D 生成モデルは大量の計算リソースを必要としますが、高解像度で細部や複雑な形状をキャプチャするには不十分なことがよくあります。
この制限は、生成モデルを効果的にモデル化するために必要なコンパクトさが欠けている現在の表現の非効率性に起因すると考えられます。
これに対処するために、3D 形状をウェーブレット ベースのコンパクトな潜在エンコーディングにエンコードする、ウェーブレット潜在拡散 (WaLa) と呼ばれる新しいアプローチを導入します。
具体的には、$256^3$ の符号付き距離フィールドを $12^3 \times 4$ の潜在グリッドに圧縮し、細部の損失を最小限に抑えながら 2427 倍という驚異的な圧縮率を達成します。
この高レベルの圧縮により、私たちの方法では、推論時間を増加させることなく、大規模な生成ネットワークを効率的にトレーニングすることができます。
私たちのモデルには、条件付きと無条件の両方で約 10 億のパラメーターが含まれており、$256^3$ の解像度で高品質の 3D 形状を生成することに成功しています。
さらに、WaLa は、モデルのスケールにもかかわらず、条件に応じて 2 ~ 4 秒以内に形状を生成する迅速な推論を実現します。
生成品質、多様性、計算効率が大幅に向上し、複数のデータセットにわたって最先端のパフォーマンスを実証します。
私たちはコードをオープンソース化し、私たちの知る限り、さまざまなモダリティにわたって最大の事前トレーニング済み 3D 生成モデルをリリースしています。
要約(オリジナル)
Large-scale 3D generative models require substantial computational resources yet often fall short in capturing fine details and complex geometries at high resolutions. We attribute this limitation to the inefficiency of current representations, which lack the compactness required to model the generative models effectively. To address this, we introduce a novel approach called Wavelet Latent Diffusion, or WaLa, that encodes 3D shapes into wavelet-based, compact latent encodings. Specifically, we compress a $256^3$ signed distance field into a $12^3 \times 4$ latent grid, achieving an impressive 2427x compression ratio with minimal loss of detail. This high level of compression allows our method to efficiently train large-scale generative networks without increasing the inference time. Our models, both conditional and unconditional, contain approximately one billion parameters and successfully generate high-quality 3D shapes at $256^3$ resolution. Moreover, WaLa offers rapid inference, producing shapes within two to four seconds depending on the condition, despite the model’s scale. We demonstrate state-of-the-art performance across multiple datasets, with significant improvements in generation quality, diversity, and computational efficiency. We open-source our code and, to the best of our knowledge, release the largest pretrained 3D generative models across different modalities.
arxiv情報
著者 | Aditya Sanghi,Aliasghar Khani,Pradyumna Reddy,Arianna Rampini,Derek Cheung,Kamal Rahimi Malekshan,Kanika Madan,Hooman Shayani |
発行日 | 2024-11-12 18:49:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google