要約
セマンティック主導の 3D 形状生成は、テキストに基づいて調整された 3D オブジェクトを生成することを目的としています。
以前の作業は、単一カテゴリの生成、低頻度の 3D 詳細、およびトレーニング用に多数のペアのデータセットを必要とするという問題に直面していました。
これらの課題に取り組むために、マルチカテゴリの条件付き拡散モデルを提案します。
具体的には、1) 大規模なペア データの不足の問題を軽減するために、事前トレーニング済みの CLIP モデルに基づいて、テキスト、2D 画像、および 3D 形状をブリッジし、2) マルチカテゴリの 3D 形状機能を取得するために、
条件付きフロー モデルを適用して、CLIP 埋め込みで調整された 3D 形状ベクトルを生成します。
3) マルチカテゴリ 3D 形状を生成するために、マルチカテゴリ形状ベクトルに条件付けられた隠れ層拡散モデルを使用します。これにより、トレーニング時間とメモリ消費が大幅に削減されます。
要約(オリジナル)
Semantic-driven 3D shape generation aims to generate 3D objects conditioned on text. Previous works face problems with single-category generation, low-frequency 3D details, and requiring a large number of paired datasets for training. To tackle these challenges, we propose a multi-category conditional diffusion model. Specifically, 1) to alleviate the problem of lack of large-scale paired data, we bridge the text, 2D image and 3D shape based on the pre-trained CLIP model, and 2) to obtain the multi-category 3D shape feature, we apply the conditional flow model to generate 3D shape vector conditioned on CLIP embedding. 3) to generate multi-category 3D shape, we employ the hidden-layer diffusion model conditioned on the multi-category shape vector, which greatly reduces the training time and memory consumption.
arxiv情報
著者 | Bo Han,Yitong Liu,Yixuan Shen |
発行日 | 2023-01-31 12:43:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google