Large-Vocabulary 3D Diffusion Model with Transformer

要約

自動生成モデルを使用して、多様で高品質の 3D アセットを作成することが非常に望ましいです。
3D 生成に対する広範な取り組みにもかかわらず、既存の作品のほとんどは、単一のカテゴリまたはいくつかのカテゴリの生成に焦点を当てています。
この論文では、現実世界の 3D オブジェクトの大規模なカテゴリを単一の生成モデルで合成するための拡散ベースのフィードフォワード フレームワークを紹介します。
特に、この大量の語彙を含む 3D 生成には 3 つの大きな課題があります。a) 表現力豊かでありながら効率的な 3D 表現の必要性。
b) カテゴリ全体での形状とテクスチャの大きな多様性。
c) 現実世界のオブジェクトの外観の複雑さ。
この目的を達成するために、3 つの側面を通じて課題に対処するために、TransFormer を使用した新しいトリプレーン ベースの 3D 認識拡散モデル、DiffTF を提案します。
1) 効率性と堅牢性を考慮し、改訂されたトライプレーン表現を採用し、フィッティング速度と精度を向上させます。
2) ジオメトリとテクスチャの大幅な変化に対処するために、すべての 3D オブジェクトの特徴を一般化された 3D 知識と特殊な 3D 特徴の組み合わせとみなします。
多様なカテゴリから一般化された 3D 知識を抽出するために、クロスプレーンの注意を共有する新しい 3D 認識トランスフォーマーを提案します。
さまざまな平面にわたる平面間の関係を学習し、一般化された 3D 知識を特殊な 3D 機能で集約します。
3) さらに、複雑な外観を持つカテゴリを処理するために、エンコードされたトライプレーンでの一般化された 3D 知識を強化するために、3D 対応エンコーダ/デコーダを考案します。
ShapeNet と OmniObject3D (200 を超える現実世界の多様なカテゴリ) に関する広範な実験により、単一の DiffTF モデルが、多様性、豊富なセマンティクス、および高品質を備えた最先端の大規模語彙 3D オブジェクト生成パフォーマンスを達成できることが説得力を持って実証されています。

要約(オリジナル)

Creating diverse and high-quality 3D assets with an automatic generative model is highly desirable. Despite extensive efforts on 3D generation, most existing works focus on the generation of a single category or a few categories. In this paper, we introduce a diffusion-based feed-forward framework for synthesizing massive categories of real-world 3D objects with a single generative model. Notably, there are three major challenges for this large-vocabulary 3D generation: a) the need for expressive yet efficient 3D representation; b) large diversity in geometry and texture across categories; c) complexity in the appearances of real-world objects. To this end, we propose a novel triplane-based 3D-aware Diffusion model with TransFormer, DiffTF, for handling challenges via three aspects. 1) Considering efficiency and robustness, we adopt a revised triplane representation and improve the fitting speed and accuracy. 2) To handle the drastic variations in geometry and texture, we regard the features of all 3D objects as a combination of generalized 3D knowledge and specialized 3D features. To extract generalized 3D knowledge from diverse categories, we propose a novel 3D-aware transformer with shared cross-plane attention. It learns the cross-plane relations across different planes and aggregates the generalized 3D knowledge with specialized 3D features. 3) In addition, we devise the 3D-aware encoder/decoder to enhance the generalized 3D knowledge in the encoded triplanes for handling categories with complex appearances. Extensive experiments on ShapeNet and OmniObject3D (over 200 diverse real-world categories) convincingly demonstrate that a single DiffTF model achieves state-of-the-art large-vocabulary 3D object generation performance with large diversity, rich semantics, and high quality.

arxiv情報

著者 Ziang Cao,Fangzhou Hong,Tong Wu,Liang Pan,Ziwei Liu
発行日 2023-09-15 07:56:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク