要約
私たちは、3D 形状生成を前例のない寸法にスケールすることで、大きな進歩をもたらしました。
自己回帰モデルの適応と大規模な言語モデルの利用を通じて、私たちは 36 億という驚異的なトレーニング可能なパラメーターを備えた注目すべきモデルを開発し、Argus-3D というこれまでで最大の 3D 形状生成モデルとして確立しました。
私たちのアプローチは、生成される 3D 形状の品質と多様性を向上させることで、既存の方法の限界に対処します。
高解像度 3D 形状生成の課題に取り組むために、私たちのモデルには潜在表現としてトライプレーン特徴が組み込まれており、計算の複雑さを効果的に軽減します。
さらに、これらの表現を効率的に量子化するための離散コードブックを導入します。
トランスの力を活用して、マルチモーダルな条件付き生成を可能にし、多様で視覚的に印象的な 3D 形状の生成を容易にします。
広範なモデルをトレーニングするために、ModelNet40、ShapeNet、Pix3D、3D-Future、Objaverse などの有名なリポジトリからの約 900,000 個のオブジェクトの包括的なコレクションで構成される、公開されている 3D データセットのアンサンブルを活用します。
この多様なデータセットにより、モデルはオブジェクトの幅広いバリエーションから学習できるようになり、高品質で多様な 3D 形状を生成する能力が強化されます。
広範な実験により、生成された 3D 形状の視覚的品質を大幅に向上させる私たちのアプローチの顕著な効果が実証されました。
3D 生成の限界を押し広げ、潜在表現学習のための新しい方法を導入し、マルチモーダル条件付き生成にトランスフォーマーの力を利用することで、私たちの貢献はこの分野の大幅な進歩への道を切り開きます。
私たちの取り組みは、ゲーム、仮想現実、製品デザイン、および高品質で多様な 3D オブジェクトを必要とするその他の領域におけるアプリケーションの新たな可能性を解き放ちます。
要約(オリジナル)
We present a significant breakthrough in 3D shape generation by scaling it to unprecedented dimensions. Through the adaptation of the Auto-Regressive model and the utilization of large language models, we have developed a remarkable model with an astounding 3.6 billion trainable parameters, establishing it as the largest 3D shape generation model to date, named Argus-3D. Our approach addresses the limitations of existing methods by enhancing the quality and diversity of generated 3D shapes. To tackle the challenges of high-resolution 3D shape generation, our model incorporates tri-plane features as latent representations, effectively reducing computational complexity. Additionally, we introduce a discrete codebook for efficient quantization of these representations. Leveraging the power of transformers, we enable multi-modal conditional generation, facilitating the production of diverse and visually impressive 3D shapes. To train our expansive model, we leverage an ensemble of publicly-available 3D datasets, consisting of a comprehensive collection of approximately 900,000 objects from renowned repositories such as ModelNet40, ShapeNet, Pix3D, 3D-Future, and Objaverse. This diverse dataset empowers our model to learn from a wide range of object variations, bolstering its ability to generate high-quality and diverse 3D shapes. Extensive experimentation demonstrate the remarkable efficacy of our approach in significantly improving the visual quality of generated 3D shapes. By pushing the boundaries of 3D generation, introducing novel methods for latent representation learning, and harnessing the power of transformers for multi-modal conditional generation, our contributions pave the way for substantial advancements in the field. Our work unlocks new possibilities for applications in gaming, virtual reality, product design, and other domains that demand high-quality and diverse 3D objects.
arxiv情報
著者 | Wang Yu,Xuelin Qian,Jingyang Huo,Tiejun Huang,Bo Zhao,Yanwei Fu |
発行日 | 2023-06-20 13:01:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google