Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability

要約

自己回帰モデルは、グリッド空間内の結合分布をモデル化することにより、2D 画像生成において優れた結果を達成しました。
この論文では、自己回帰モデルを 3D ドメインに拡張し、自己回帰モデルの容量とスケーラビリティを同時に改善することで、3D 形状生成の強力な能力を追求します。
まず、公開されている 3D データセットのアンサンブルを活用して、大規模モデルのトレーニングを容易にします。
これは、メッシュ、ポイント、ボクセル、レンダリングされたイメージ、テキスト キャプションなどの複数のプロパティを含む、約 900,000 個のオブジェクトの包括的なコレクションで構成されています。
Objaverse-Mix と呼ばれるこの多様なラベル付きデータセットにより、モデルは幅広いオブジェクトのバリエーションから学習できるようになります。
ただし、3D 自動回帰を直接適用すると、体積グリッドに対する高い計算要求とグリッド寸法に沿った曖昧な自動回帰順序という重大な課題に直面し、結果として 3D 形状の品質が低下します。
この目的を達成するために、容量の観点から新しいフレームワーク Argus3D を紹介します。
具体的には、私たちのアプローチでは、体積グリッドではなく潜在ベクトルに基づく離散表現学習を導入しています。これにより、計算コストが削減されるだけでなく、結合分布をより扱いやすい順序で学習することで、重要な幾何学的詳細が保存されます。
したがって、条件付き生成の能力は、点群、カテゴリ、画像、テキストなどのさまざまな条件付け入力を潜在ベクトルに単純に連結するだけで実現できます。
さらに、モデル アーキテクチャのシンプルさのおかげで、36 億ものパラメータを備えたより大きなモデルへのアプローチが自然にスケールアップされ、汎用性の高い 3D 生成の品質がさらに向上します。
4 世代タスクに関する広範な実験により、Argus3D が複数のカテゴリにわたって多様で忠実な形状を合成でき、驚くべきパフォーマンスを達成できることが実証されました。

要約(オリジナル)

Auto-regressive models have achieved impressive results in 2D image generation by modeling joint distributions in grid space. In this paper, we extend auto-regressive models to 3D domains, and seek a stronger ability of 3D shape generation by improving auto-regressive models at capacity and scalability simultaneously. Firstly, we leverage an ensemble of publicly available 3D datasets to facilitate the training of large-scale models. It consists of a comprehensive collection of approximately 900,000 objects, with multiple properties of meshes, points, voxels, rendered images, and text captions. This diverse labeled dataset, termed Objaverse-Mix, empowers our model to learn from a wide range of object variations. However, directly applying 3D auto-regression encounters critical challenges of high computational demands on volumetric grids and ambiguous auto-regressive order along grid dimensions, resulting in inferior quality of 3D shapes. To this end, we then present a novel framework Argus3D in terms of capacity. Concretely, our approach introduces discrete representation learning based on a latent vector instead of volumetric grids, which not only reduces computational costs but also preserves essential geometric details by learning the joint distributions in a more tractable order. The capacity of conditional generation can thus be realized by simply concatenating various conditioning inputs to the latent vector, such as point clouds, categories, images, and texts. In addition, thanks to the simplicity of our model architecture, we naturally scale up our approach to a larger model with an impressive 3.6 billion parameters, further enhancing the quality of versatile 3D generation. Extensive experiments on four generation tasks demonstrate that Argus3D can synthesize diverse and faithful shapes across multiple categories, achieving remarkable performance.

arxiv情報

著者 Xuelin Qian,Yu Wang,Simian Luo,Yinda Zhang,Ying Tai,Zhenyu Zhang,Chengjie Wang,Xiangyang Xue,Bo Zhao,Tiejun Huang,Yunsheng Wu,Yanwei Fu
発行日 2024-02-19 15:33:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク