UniPre3D: Unified Pre-training of 3D Point Cloud Models with Cross-Modal Gaussian Splatting

要約

ポイントクラウドデータのスケールの多様性は、3Dビジョンのための統一された表現学習技術の開発において重要な課題を示しています。
現在、統一された3Dモデルはほとんどなく、オブジェクトレベルのポイントクラウドとシーンレベルの両方のポイントクラウドに等しく効果的な既存のトレーニング方法はありません。
このホワイトペーパーでは、任意のスケールのポイントクラウドとあらゆるアーキテクチャの3Dモデルにシームレスに適用できる最初の統一前訓練方法であるUnipre3Dを紹介します。
私たちのアプローチは、ガウスプリミティブをトレーニング前のタスクとして予測し、微分可能なガウスのスプラッティングを使用して画像をレンダリングし、正確なピクセルレベルの監督とエンドツーエンドの最適化を可能にします。
トレーニング前のタスクの複雑さをさらに調節し、モデルの焦点を幾何学的構造に向けるために、事前に訓練された画像モデルの2D機能を統合して、確立されたテクスチャ知識を組み込みます。
さまざまなポイントクラウドモデルをバックボーンとして使用して、さまざまなオブジェクトレベルおよびシーンレベルのタスクにわたる広範な実験を通じて、提案された方法の普遍的な有効性を検証します。
コードはhttps://github.com/wangzy22/unipre3dで入手できます。

要約(オリジナル)

The scale diversity of point cloud data presents significant challenges in developing unified representation learning techniques for 3D vision. Currently, there are few unified 3D models, and no existing pre-training method is equally effective for both object- and scene-level point clouds. In this paper, we introduce UniPre3D, the first unified pre-training method that can be seamlessly applied to point clouds of any scale and 3D models of any architecture. Our approach predicts Gaussian primitives as the pre-training task and employs differentiable Gaussian splatting to render images, enabling precise pixel-level supervision and end-to-end optimization. To further regulate the complexity of the pre-training task and direct the model’s focus toward geometric structures, we integrate 2D features from pre-trained image models to incorporate well-established texture knowledge. We validate the universal effectiveness of our proposed method through extensive experiments across a variety of object- and scene-level tasks, using diverse point cloud models as backbones. Code is available at https://github.com/wangzy22/UniPre3D.

arxiv情報

著者 Ziyi Wang,Yanran Zhang,Jie Zhou,Jiwen Lu
発行日 2025-06-11 17:23:21+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク