DistillNeRF: Perceiving 3D Scenes from Single-Glance Images by Distilling Neural Fields and Foundation Model Features

要約

私たちは、自動運転における限られた 2D 観察から 3D 環境を理解するという課題に対処する自己教師あり学習フレームワークである DistillNeRF を提案します。
私たちの方法は、まばらな単一フレームのマルチビュー カメラ入力から豊富なニューラル シーン表現を予測する一般化可能なフィードフォワード モデルであり、RGB、深度、または特徴画像を再構成するために微分可能なレンダリングで自己教師ありトレーニングされます。
私たちの最初の洞察は、トレーニング用の高密度の深度および仮想カメラ ターゲットを生成することにより、シーンごとに最適化された Neural Radiance Fields (NeRF) を活用することです。これにより、モデルがまばらな重複しない画像入力から 3D ジオメトリを学習できるようになります。
次に、意味的に豊かな 3D 表現を学習するために、CLIP や DINOv2 などの事前トレーニングされた 2D 基礎モデルから特徴を抽出することを提案します。これにより、コストのかかる 3D 人間による注釈を必要とせずに、さまざまな下流タスクが可能になります。
これら 2 つの洞察を活用するために、2 段階のリフト、スプラット、シュート エンコーダーとパラメーター化されたスパース階層ボクセル表現を備えた新しいモデル アーキテクチャを導入します。
NuScenes データセットの実験結果は、DistillNeRF が、シーンの再構成、新しいビューの合成、深さの推定に関して、既存の同等の自己教師あり手法よりも大幅に優れていることを示しています。
また、競争力のあるゼロショット 3D セマンティック占有予測と、抽出された基礎モデル機能によるオープンワールド シーンの理解が可能になります。
デモとコードは https://distillnerf.github.io/ で入手できます。

要約(オリジナル)

We propose DistillNeRF, a self-supervised learning framework addressing the challenge of understanding 3D environments from limited 2D observations in autonomous driving. Our method is a generalizable feedforward model that predicts a rich neural scene representation from sparse, single-frame multi-view camera inputs, and is trained self-supervised with differentiable rendering to reconstruct RGB, depth, or feature images. Our first insight is to exploit per-scene optimized Neural Radiance Fields (NeRFs) by generating dense depth and virtual camera targets for training, thereby helping our model to learn 3D geometry from sparse non-overlapping image inputs. Second, to learn a semantically rich 3D representation, we propose distilling features from pre-trained 2D foundation models, such as CLIP or DINOv2, thereby enabling various downstream tasks without the need for costly 3D human annotations. To leverage these two insights, we introduce a novel model architecture with a two-stage lift-splat-shoot encoder and a parameterized sparse hierarchical voxel representation. Experimental results on the NuScenes dataset demonstrate that DistillNeRF significantly outperforms existing comparable self-supervised methods for scene reconstruction, novel view synthesis, and depth estimation; and it allows for competitive zero-shot 3D semantic occupancy prediction, as well as open-world scene understanding through distilled foundation model features. Demos and code will be available at https://distillnerf.github.io/.

arxiv情報

著者 Letian Wang,Seung Wook Kim,Jiawei Yang,Cunjun Yu,Boris Ivanovic,Steven L. Waslander,Yue Wang,Sanja Fidler,Marco Pavone,Peter Karkus
発行日 2024-06-17 21:15:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク