PixelGaussian: Generalizable 3D Gaussian Reconstruction from Arbitrary Views

要約

私たちは、任意のビューから一般化可能な 3D ガウス再構成を学習するための効率的なフィードフォワード フレームワークである PixelGaussian を提案します。
既存の手法のほとんどは均一なピクセル単位のガウス表現に依存しており、ビューごとに固定数の 3D ガウスを学習するため、より多くの入力ビューにうまく一般化できません。
これとは異なり、PixelGaussian は幾何学的複雑さに基づいてガウス分布と量の両方を動的に適応させ、より効率的な表現と再構成品質の大幅な向上につながります。
具体的には、キーポイント スコアラーによって特定されたローカル ジオメトリの複雑さに応じてガウス分布を調整するカスケード ガウス アダプターを導入します。
CGA は、コンテキスト認識型ハイパーネットワークで変形可能な注意を利用してガウス枝刈りおよび分割をガイドし、冗長性を削減しながら複雑な領域の正確な表現を保証します。
さらに、画像とガウスの直接的な相互作用を通じてガウス表現を洗練する、トランスフォーマーベースの反復ガウス洗練モジュールを設計します。
PixelGaussian は、入力ビューが増加するにつれてガウスの冗長性を効果的に削減できます。
私たちは大規模な ACID および RealEstate10K データセットで広範な実験を実施しており、そこで私たちの手法はさまざまな数のビューに適切に一般化され、最先端のパフォーマンスを実現します。
コード: https://github.com/Barrybarry-Smith/PixelGaussian。

要約(オリジナル)

We propose PixelGaussian, an efficient feed-forward framework for learning generalizable 3D Gaussian reconstruction from arbitrary views. Most existing methods rely on uniform pixel-wise Gaussian representations, which learn a fixed number of 3D Gaussians for each view and cannot generalize well to more input views. Differently, our PixelGaussian dynamically adapts both the Gaussian distribution and quantity based on geometric complexity, leading to more efficient representations and significant improvements in reconstruction quality. Specifically, we introduce a Cascade Gaussian Adapter to adjust Gaussian distribution according to local geometry complexity identified by a keypoint scorer. CGA leverages deformable attention in context-aware hypernetworks to guide Gaussian pruning and splitting, ensuring accurate representation in complex regions while reducing redundancy. Furthermore, we design a transformer-based Iterative Gaussian Refiner module that refines Gaussian representations through direct image-Gaussian interactions. Our PixelGaussian can effectively reduce Gaussian redundancy as input views increase. We conduct extensive experiments on the large-scale ACID and RealEstate10K datasets, where our method achieves state-of-the-art performance with good generalization to various numbers of views. Code: https://github.com/Barrybarry-Smith/PixelGaussian.

arxiv情報

著者 Xin Fei,Wenzhao Zheng,Yueqi Duan,Wei Zhan,Masayoshi Tomizuka,Kurt Keutzer,Jiwen Lu
発行日 2024-10-24 17:59:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク