SimC3D: A Simple Contrastive 3D Pretraining Framework Using RGB Images

要約

3D 対照学習パラダイムは、点群データでの事前トレーニングを通じて下流タスクで顕著なパフォーマンスを実証しました。
最近の進歩には、さらなる改善のために 3D 点群に関連付けられた追加の 2D 画像事前分布が含まれています。
それにもかかわらず、これらの既存のフレームワークは、主に点群データの取得コストが高いため、利用可能な点群データセットの範囲が制限されています。
この目的を達成するために、純粋な RGB 画像データから 3D バックボーンを事前トレーニングする、シンプルだが効果的な 3D 対照学習フレームワークである SimC3D を初めて提案します。
SimC3D は、3 つの魅力的なプロパティを使用してコントラスト 3D 事前トレーニングを実行します。
(1) 純粋な画像データ: SimC3D は、高価な 3D 点群の依存関係を簡素化し、RBG 画像のみを使用して 3D バックボーンを事前トレーニングします。
深度推定と適切なデータ処理を採用することにより、単眼合成点群は 3D 事前トレーニングに大きな可能性を示します。
(2) シンプルなフレームワーク: 従来のマルチモーダル フレームワークは、追加の 2D バックボーンを利用することで 2D 事前学習による 3D 事前トレーニングを容易にし、それにより計算コストが増加します。
この論文では、2D モダリティの主な利点が局所情報の組み込みによってもたらされることを経験的に示します。
この洞察力に富んだ観察に触発され、SimC3D はより強力な対比目標として 2D 位置埋め込みを直接採用し、2D バックボーンの必要性を排除し、大幅なパフォーマンスの向上につながります。
(3) 強力なパフォーマンス: SimC3D は、さまざまな下流タスクの事前トレーニングにグラウンドトゥルース点群データを活用する以前のアプローチよりも優れたパフォーマンスを発揮します。
さらに、SimC3D のパフォーマンスは、複数の画像データセットを組み合わせることでさらに強化でき、スケーラビリティの大きな可能性を示します。
コードは https://github.com/Dongjiahua/SimC3D で入手できます。

要約(オリジナル)

The 3D contrastive learning paradigm has demonstrated remarkable performance in downstream tasks through pretraining on point cloud data. Recent advances involve additional 2D image priors associated with 3D point clouds for further improvement. Nonetheless, these existing frameworks are constrained by the restricted range of available point cloud datasets, primarily due to the high costs of obtaining point cloud data. To this end, we propose SimC3D, a simple but effective 3D contrastive learning framework, for the first time, pretraining 3D backbones from pure RGB image data. SimC3D performs contrastive 3D pretraining with three appealing properties. (1) Pure image data: SimC3D simplifies the dependency of costly 3D point clouds and pretrains 3D backbones using solely RBG images. By employing depth estimation and suitable data processing, the monocular synthesized point cloud shows great potential for 3D pretraining. (2) Simple framework: Traditional multi-modal frameworks facilitate 3D pretraining with 2D priors by utilizing an additional 2D backbone, thereby increasing computational expense. In this paper, we empirically demonstrate that the primary benefit of the 2D modality stems from the incorporation of locality information. Inspired by this insightful observation, SimC3D directly employs 2D positional embeddings as a stronger contrastive objective, eliminating the necessity for 2D backbones and leading to considerable performance improvements. (3) Strong performance: SimC3D outperforms previous approaches that leverage ground-truth point cloud data for pretraining in various downstream tasks. Furthermore, the performance of SimC3D can be further enhanced by combining multiple image datasets, showcasing its significant potential for scalability. The code will be available at https://github.com/Dongjiahua/SimC3D.

arxiv情報

著者 Jiahua Dong,Tong Wu,Rui Qian,Jiaqi Wang
発行日 2024-12-06 18:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク