要約
我々は、点群拡散モデルの効率的なファミリーであるPointInfinityを発表する。我々の核となるアイデアは、固定サイズで解像度不変の潜在表現を持つ変換器ベースのアーキテクチャを使用することである。これにより、低解像度の点群を用いた効率的な学習が可能になる一方で、推論中に高解像度の点群を生成することが可能になる。さらに重要な点として、テスト時の解像度を学習時の解像度以上に拡大することで、生成される点群や曲面の忠実度が向上することを示す。この現象を分析し、拡散モデルで一般的に使用される分類器不要のガイダンスとの関連性を導き出し、どちらも推論中に忠実性とばらつきをトレードオフできることを実証する。CO3Dを使った実験では、PointInfinityは高解像度の点群(最大131k点、Point-Eの31倍)を最先端の品質で効率的に生成できることが示された。
要約(オリジナル)
We present PointInfinity, an efficient family of point cloud diffusion models. Our core idea is to use a transformer-based architecture with a fixed-size, resolution-invariant latent representation. This enables efficient training with low-resolution point clouds, while allowing high-resolution point clouds to be generated during inference. More importantly, we show that scaling the test-time resolution beyond the training resolution improves the fidelity of generated point clouds and surfaces. We analyze this phenomenon and draw a link to classifier-free guidance commonly used in diffusion models, demonstrating that both allow trading off fidelity and variability during inference. Experiments on CO3D show that PointInfinity can efficiently generate high-resolution point clouds (up to 131k points, 31 times more than Point-E) with state-of-the-art quality.
arxiv情報
著者 | Zixuan Huang,Justin Johnson,Shoubhik Debnath,James M. Rehg,Chao-Yuan Wu |
発行日 | 2024-04-04 16:24:32+00:00 |
arxivサイト | arxiv_id(pdf) |