SelfOcc: Self-Supervised Vision-Based 3D Occupancy Prediction

要約

3D 占有予測は、ビジョン中心の自動運転の堅牢性にとって重要なタスクであり、各点が周囲の 3D 空間に占有されているかどうかを予測することを目的としています。
既存の方法では通常、意味のある結果を生成するために 3D 占有ラベルが必要です。
しかし、各ボクセルの占有状態に注釈を付けるのは非常に手間がかかります。
この論文では、ビデオ シーケンスのみを使用して 3D 占有を学習する自己監視型の方法を探索する SelfOcc を提案します。
まず、画像を 3D 空間 (鳥瞰図など) に変換して、シーンの 3D 表現を取得します。
3D 表現を符号付き距離フィールドとして扱うことで、3D 表現に直接制約を課します。
その後、前および将来のフレームの 2D 画像を自己監視信号としてレンダリングし、3D 表現を学習できます。
複数の深さの提案を使用して SDF によって引き起こされる重みを直接最適化するための MVS 埋め込み戦略を提案します。
私たちの SelfOcc は、SemanticKITTI の入力として単一フレームを使用する、以前の最良の方法である SceneRF を 58.7% 上回っており、Occ3D 上のサラウンド カメラに適切な 3D 占有率を生成する最初の自己監視型の作品です。
SelfOcc は高品質の深度を生成し、SemanticKITTI、KITTI-2015、および nuScenes でそれぞれ新しい深度合成、単眼深度推定、およびサラウンドビュー深度推定において最先端の結果を達成します。
コード: https://github.com/huang-yh/SelfOcc。

要約(オリジナル)

3D occupancy prediction is an important task for the robustness of vision-centric autonomous driving, which aims to predict whether each point is occupied in the surrounding 3D space. Existing methods usually require 3D occupancy labels to produce meaningful results. However, it is very laborious to annotate the occupancy status of each voxel. In this paper, we propose SelfOcc to explore a self-supervised way to learn 3D occupancy using only video sequences. We first transform the images into the 3D space (e.g., bird’s eye view) to obtain 3D representation of the scene. We directly impose constraints on the 3D representations by treating them as signed distance fields. We can then render 2D images of previous and future frames as self-supervision signals to learn the 3D representations. We propose an MVS-embedded strategy to directly optimize the SDF-induced weights with multiple depth proposals. Our SelfOcc outperforms the previous best method SceneRF by 58.7% using a single frame as input on SemanticKITTI and is the first self-supervised work that produces reasonable 3D occupancy for surround cameras on Occ3D. SelfOcc produces high-quality depth and achieves state-of-the-art results on novel depth synthesis, monocular depth estimation, and surround-view depth estimation on the SemanticKITTI, KITTI-2015, and nuScenes, respectively. Code: https://github.com/huang-yh/SelfOcc.

arxiv情報

著者 Yuanhui Huang,Wenzhao Zheng,Borui Zhang,Jie Zhou,Jiwen Lu
発行日 2023-11-21 17:59:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク