要約
最近の 3D コンテンツ生成パイプラインは、拡散ベースの生成のために形状をコンパクトな潜在表現にエンコードするために、変分オートエンコーダー (VAE) を一般的に採用しています。
ただし、形状 VAE トレーニングで広く採用されている均一ポイント サンプリング戦略では、幾何学的詳細が大幅に失われることが多く、形状の再構築と下流の生成タスクの品質が制限されます。
我々は、提案したシャープエッジサンプリング戦略とデュアルクロスアテンションメカニズムを通じてVAE再構成を強化する新しいアプローチであるDora-VAEを紹介します。
トレーニング中に幾何学的複雑性の高い領域を特定して優先順位を付けることにより、私たちの方法は細粒形状特徴の保存を大幅に改善します。
このようなサンプリング戦略とデュアル アテンション メカニズムにより、VAE は、均一なサンプリング アプローチでは通常見逃される重要な幾何学的詳細に焦点を当てることができます。
VAE 再構成の品質を体系的に評価するために、シャープ エッジの密度を通じて形状の複雑さを定量化するベンチマークである Dora ベンチをさらに提案し、これらの顕著な幾何学的特徴における再構成精度に焦点を当てた新しい指標を導入します。
Dora ベンチでの広範な実験により、Dora-VAE が最先端の高密度 XCube-VAE に匹敵する再構築品質を達成しながら、必要な潜在空間が少なくとも 8$\times$ (1,280 対 > 10,000 コード) であることが実証されました。
。
3D 形状モデリングの将来の研究を促進するために、コードとベンチマーク データセットをリリースします。
要約(オリジナル)
Recent 3D content generation pipelines commonly employ Variational Autoencoders (VAEs) to encode shapes into compact latent representations for diffusion-based generation. However, the widely adopted uniform point sampling strategy in Shape VAE training often leads to a significant loss of geometric details, limiting the quality of shape reconstruction and downstream generation tasks. We present Dora-VAE, a novel approach that enhances VAE reconstruction through our proposed sharp edge sampling strategy and a dual cross-attention mechanism. By identifying and prioritizing regions with high geometric complexity during training, our method significantly improves the preservation of fine-grained shape features. Such sampling strategy and the dual attention mechanism enable the VAE to focus on crucial geometric details that are typically missed by uniform sampling approaches. To systematically evaluate VAE reconstruction quality, we additionally propose Dora-bench, a benchmark that quantifies shape complexity through the density of sharp edges, introducing a new metric focused on reconstruction accuracy at these salient geometric features. Extensive experiments on the Dora-bench demonstrate that Dora-VAE achieves comparable reconstruction quality to the state-of-the-art dense XCube-VAE while requiring a latent space at least 8$\times$ smaller (1,280 vs. > 10,000 codes). We will release our code and benchmark dataset to facilitate future research in 3D shape modeling.
arxiv情報
著者 | Rui Chen,Jianfeng Zhang,Yixun Liang,Guan Luo,Weiyu Li,Jiarui Liu,Xiu Li,Xiaoxiao Long,Jiashi Feng,Ping Tan |
発行日 | 2024-12-24 11:02:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google