要約
多くの3D生成モデルは、コンパクトな形状表現を学習するために変分オートエンコーダ(VAE)に依存している。しかし、既存の手法では、3Dデータに内在するスケールや複雑さのばらつきを無視して、すべての形状を固定サイズのトークンにエンコードしている。これは非効率的な潜在表現につながり、下流の生成を損なう可能性がある。我々は、Octree-based Adaptive Tokenizationを導入することで、この課題に対処する。Octree-based Adaptive Tokenizationは、形状の複雑さに応じて潜在表現の次元を調整する新しいフレームワークである。本アプローチでは、4次エラーに基づく細分化基準によって適応的なオクツリー構造を構築し、クエリベースの変換器を用いて各オクツリーセルに形状潜在ベクトルを割り当てる。このトークン化を基に、形状生成においてこれらの可変サイズ表現を効果的に活用する、オクツリーベースの自己回帰生成モデルを開発する。広範な実験により、本アプローチは、同程度の視覚的品質を維持しながら、固定サイズの手法と比較してトークン数を50%削減できることが実証された。同程度のトークン長を使用した場合、本手法は著しく高品質な形状を生成する。我々の下流の生成モデルと組み合わせることで、我々の手法は既存のアプローチよりも詳細で多様な3Dコンテンツを生成する。
要約(オリジナル)
Many 3D generative models rely on variational autoencoders (VAEs) to learn compact shape representations. However, existing methods encode all shapes into a fixed-size token, disregarding the inherent variations in scale and complexity across 3D data. This leads to inefficient latent representations that can compromise downstream generation. We address this challenge by introducing Octree-based Adaptive Tokenization, a novel framework that adjusts the dimension of latent representations according to shape complexity. Our approach constructs an adaptive octree structure guided by a quadric-error-based subdivision criterion and allocates a shape latent vector to each octree cell using a query-based transformer. Building upon this tokenization, we develop an octree-based autoregressive generative model that effectively leverages these variable-sized representations in shape generation. Extensive experiments demonstrate that our approach reduces token counts by 50% compared to fixed-size methods while maintaining comparable visual quality. When using a similar token length, our method produces significantly higher-quality shapes. When incorporated with our downstream generative model, our method creates more detailed and diverse 3D content than existing approaches.
arxiv情報
| 著者 | Kangle Deng,Hsueh-Ti Derek Liu,Yiheng Zhu,Xiaoxia Sun,Chong Shang,Kiran Bhat,Deva Ramanan,Jun-Yan Zhu,Maneesh Agrawala,Tinghui Zhou |
| 発行日 | 2025-04-03 17:57:52+00:00 |
| arxivサイト | arxiv_id(pdf) |