PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm

要約

多数の NLP および 2D コンピューター ビジョンの基本モデルとは対照的に、堅牢で高度に一般化された 3D 基本モデルの学習には、かなり大きな課題が伴います。
これは主に、固有のデータの変動性と下流のタスクの多様性によるものです。
このペーパーでは、効率的な 3D 表現の取得を促進するように設計された包括的な 3D 事前トレーニング フレームワークを紹介し、それによって 3D 基礎モデルへの道を確立します。
有益な 3D 特徴は、リアルな画像をレンダリングするために利用できる豊富なジオメトリと外観の手がかりをエンコードできる必要があるという事実に動機付けられ、微分可能なニューラル レンダリングによって点群表現を学習し、3D と 3D 間の橋渡しとして機能する新しい普遍的なパラダイムを提案します。
2Dの世界。
レンダリングされた画像を実際の画像と比較することにより、考案されたボリュームニューラルレンダラ内で点群エンコーダをトレーニングします。
特に、私たちのアプローチは、学習した 3D エンコーダーをさまざまな下流タスクにシームレスに統合することを示しています。
これらのタスクには、3D 検出やセグメンテーションなどの高レベルの課題だけでなく、屋内と屋外の両方のシナリオにわたる 3D 再構成や画像合成などの低レベルの目標も含まれます。
さらに、提案されたユニバーサルな方法論を使用して 2D バックボーンを事前トレーニングする機能も示し、従来の事前トレーニング方法を大幅に上回ります。
PonderV2 は初めて、屋内および屋外の 11 のベンチマークで最先端のパフォーマンスを達成しました。
さまざまな設定における一貫した改善は、提案された方法の有効性を示唆しています。
コードとモデルは https://github.com/OpenGVLab/PonderV2 で利用可能になります。

要約(オリジナル)

In contrast to numerous NLP and 2D computer vision foundational models, the learning of a robust and highly generalized 3D foundational model poses considerably greater challenges. This is primarily due to the inherent data variability and the diversity of downstream tasks. In this paper, we introduce a comprehensive 3D pre-training framework designed to facilitate the acquisition of efficient 3D representations, thereby establishing a pathway to 3D foundational models. Motivated by the fact that informative 3D features should be able to encode rich geometry and appearance cues that can be utilized to render realistic images, we propose a novel universal paradigm to learn point cloud representations by differentiable neural rendering, serving as a bridge between 3D and 2D worlds. We train a point cloud encoder within a devised volumetric neural renderer by comparing the rendered images with the real images. Notably, our approach demonstrates the seamless integration of the learned 3D encoder into diverse downstream tasks. These tasks encompass not only high-level challenges such as 3D detection and segmentation but also low-level objectives like 3D reconstruction and image synthesis, spanning both indoor and outdoor scenarios. Besides, we also illustrate the capability of pre-training a 2D backbone using the proposed universal methodology, surpassing conventional pre-training methods by a large margin. For the first time, PonderV2 achieves state-of-the-art performance on 11 indoor and outdoor benchmarks. The consistent improvements in various settings imply the effectiveness of the proposed method. Code and models will be made available at https://github.com/OpenGVLab/PonderV2.

arxiv情報

著者 Haoyi Zhu,Honghui Yang,Xiaoyang Wu,Di Huang,Sha Zhang,Xianglong He,Tong He,Hengshuang Zhao,Chunhua Shen,Yu Qiao,Wanli Ouyang
発行日 2023-10-13 13:37:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク