要約
現在の 3D 形状の拡散またはフローベースの生成モデルは、事前にトレーニングされた 2D 画像拡散モデルを抽出するものと、3D 形状で直接トレーニングするものの 2 つに分かれています。
3D 形状で拡散モデルまたは流れモデルをトレーニングする場合、設計上の重要な選択は形状の表現です。
効果的な形状表現には、次の 3 つの設計原則を順守する必要があります。大規模な 3D データセットを表現形式に効率的に変換できる必要があります。
近似検出力とパラメータの数の適切なトレードオフを提供する必要があります。
そして、既存の強力なニューラル アーキテクチャと互換性のある単純なテンソル形式を持つ必要があります。
体積グリッドや点群などの標準的な 3D 形状表現は、これらすべての原則に同時に準拠しているわけではありませんが、この論文では、準拠する新しい表現を提唱します。
Mosaic-SDF (M-SDF) を導入します。これは、形状の境界付近に広がるローカル グリッドのセットを使用して、特定の形状の符号付き距離関数 (SDF) を近似する単純な 3D 形状表現です。
M-SDF 表現は各形状を個別に高速に計算できるため、容易に並列化できます。
形状の境界の周囲の空間のみをカバーするため、パラメータ効率が高くなります。
単純なマトリックス形式を持ち、Transformer ベースのアーキテクチャと互換性があります。
3D ウェアハウス データセットを使用したクラス条件付き生成や、約 600,000 個のキャプションと形状のペアのデータセットを使用したテキストから 3D への生成などの 3D 生成フロー モデルをトレーニングするために M-SDF 表現を使用することによって、M-SDF 表現の有効性を実証します。
要約(オリジナル)
Current diffusion or flow-based generative models for 3D shapes divide to two: distilling pre-trained 2D image diffusion models, and training directly on 3D shapes. When training a diffusion or flow models on 3D shapes a crucial design choice is the shape representation. An effective shape representation needs to adhere three design principles: it should allow an efficient conversion of large 3D datasets to the representation form; it should provide a good tradeoff of approximation power versus number of parameters; and it should have a simple tensorial form that is compatible with existing powerful neural architectures. While standard 3D shape representations such as volumetric grids and point clouds do not adhere to all these principles simultaneously, we advocate in this paper a new representation that does. We introduce Mosaic-SDF (M-SDF): a simple 3D shape representation that approximates the Signed Distance Function (SDF) of a given shape by using a set of local grids spread near the shape’s boundary. The M-SDF representation is fast to compute for each shape individually making it readily parallelizable; it is parameter efficient as it only covers the space around the shape’s boundary; and it has a simple matrix form, compatible with Transformer-based architectures. We demonstrate the efficacy of the M-SDF representation by using it to train a 3D generative flow model including class-conditioned generation with the 3D Warehouse dataset, and text-to-3D generation using a dataset of about 600k caption-shape pairs.
arxiv情報
著者 | Lior Yariv,Omri Puny,Natalia Neverova,Oran Gafni,Yaron Lipman |
発行日 | 2023-12-14 18:52:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google