要約
セマンティック占有は、3D シーン表現の有力な方法として最近大きな注目を集めています。
しかし、既存のカメラベースの手法のほとんどは、トレーニングのためにきめの細かい 3D ボクセル ラベルや LiDAR スキャンを備えた高価なデータセットに依存しているため、実用性と拡張性が制限されており、この分野で自己教師ありアプローチの必要性が高まっています。
さらに、ほとんどのメソッドは、検出できる事前定義されたクラスのセットに関連付けられています。
この研究では、\textit{LangOcc} と呼ばれるオープン語彙占有率推定のための新しいアプローチを紹介します。これはカメラ画像によってのみトレーニングされ、視覚と言語の整合によって任意の意味論を検出できます。
特に、微分可能なボリューム レンダリングを介して、強力なビジョン言語に合わせたエンコーダー CLIP の知識を 3D 占有モデルに抽出します。
私たちのモデルは、画像のみを使用して、3D ボクセル グリッド内の視覚言語に合わせた特徴を推定します。
これは、推定値を 2D 空間にレンダリングすることで自己教師ありの方法でトレーニングされ、そこでグラウンド トゥルースの特徴を計算できます。
このトレーニング メカニズムはシーンのジオメトリを自動的に監視するため、明示的なジオメトリの監視を必要とせずに、直接的で強力なトレーニング方法が可能になります。
LangOcc は、視覚ベースのトレーニングのみに依存しており、オープンボキャブラリーの占有率において、LiDAR で監視されている競合他社を大幅に上回っています。
また、特定のカテゴリのセットに限定されていないにもかかわらず、Occ3D-nuScenes データセットでの自己教師ありの意味占有推定において最先端の結果を達成し、提案した視覚言語トレーニングの有効性を実証しました。
要約(オリジナル)
Semantic occupancy has recently gained significant traction as a prominent method for 3D scene representation. However, most existing camera-based methods rely on costly datasets with fine-grained 3D voxel labels or LiDAR scans for training, which limits their practicality and scalability, raising the need for self-supervised approaches in this domain. Moreover, most methods are tied to a predefined set of classes which they can detect. In this work we present a novel approach for open vocabulary occupancy estimation called \textit{LangOcc}, that is trained only via camera images, and can detect arbitrary semantics via vision-language alignment. In particular, we distill the knowledge of the strong vision-language aligned encoder CLIP into a 3D occupancy model via differentiable volume rendering. Our model estimates vision-language aligned features in a 3D voxel grid using only images. It is trained in a self-supervised manner by rendering our estimations back to 2D space, where ground-truth features can be computed. This training mechanism automatically supervises the scene geometry, allowing for a straight-forward and powerful training method without any explicit geometry supervision. LangOcc outperforms LiDAR-supervised competitors in open vocabulary occupancy by a large margin, solely relying on vision-based training. We also achieve state-of-the-art results in self-supervised semantic occupancy estimation on the Occ3D-nuScenes dataset, despite not being limited to a specific set of categories, thus demonstrating the effectiveness of our proposed vision-language training.
arxiv情報
著者 | Simon Boeder,Fabian Gigengack,Benjamin Risse |
発行日 | 2024-07-24 14:22:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google