要約
多数の NLP および 2D ビジョンの基本モデルとは対照的に、3D の基本モデルの学習にはかなり大きな課題が伴います。
これは主に、下流のタスクに固有のデータの変動性と多様性によるものです。
この論文では、効率的な 3D 表現の取得を促進するように設計された新しいユニバーサル 3D 事前トレーニング フレームワークを紹介し、それによって 3D 基礎モデルへの道を確立します。
有益な 3D 特徴は、リアルな画像をレンダリングするために利用できる豊富なジオメトリと外観の手がかりをエンコードする必要があることを考慮して、微分可能なニューラル レンダリングによって 3D 表現を学習することを提案します。
レンダリングされた画像と実際の画像を比較することにより、考案されたボリューム ニューラル レンダラーを使用して 3D バックボーンをトレーニングします。
特に、私たちのアプローチは、学習した 3D エンコーダーをさまざまな下流タスクにシームレスに統合します。
これらのタスクには、3D 検出やセグメンテーションなどの高レベルの課題だけでなく、屋内と屋外の両方のシナリオにわたる 3D 再構成や画像合成などの低レベルの目標も含まれます。
さらに、提案された方法論を使用して 2D バックボーンを事前トレーニングする機能も示し、従来の事前トレーニング方法を大幅に上回ります。
PonderV2 は初めて、屋内および屋外の 11 のベンチマークで最先端のパフォーマンスを達成し、その有効性を示唆しています。
コードとモデルは https://github.com/OpenGVLab/PonderV2 で入手できます。
要約(オリジナル)
In contrast to numerous NLP and 2D vision foundational models, learning a 3D foundational model poses considerably greater challenges. This is primarily due to the inherent data variability and diversity of downstream tasks. In this paper, we introduce a novel universal 3D pre-training framework designed to facilitate the acquisition of efficient 3D representation, thereby establishing a pathway to 3D foundational models. Considering that informative 3D features should encode rich geometry and appearance cues that can be utilized to render realistic images, we propose to learn 3D representations by differentiable neural rendering. We train a 3D backbone with a devised volumetric neural renderer by comparing the rendered with the real images. Notably, our approach seamlessly integrates the learned 3D encoder into various downstream tasks. These tasks encompass not only high-level challenges such as 3D detection and segmentation but also low-level objectives like 3D reconstruction and image synthesis, spanning both indoor and outdoor scenarios. Besides, we also illustrate the capability of pre-training a 2D backbone using the proposed methodology, surpassing conventional pre-training methods by a large margin. For the first time, PonderV2 achieves state-of-the-art performance on 11 indoor and outdoor benchmarks, implying its effectiveness. Code and models are available at https://github.com/OpenGVLab/PonderV2.
arxiv情報
著者 | Haoyi Zhu,Honghui Yang,Xiaoyang Wu,Di Huang,Sha Zhang,Xianglong He,Hengshuang Zhao,Chunhua Shen,Yu Qiao,Tong He,Wanli Ouyang |
発行日 | 2024-02-27 13:53:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google