要約
視覚ベースの知覚の基本的なタスクとして、3D 占有予測は周囲環境の 3D 構造を再構築します。
自動運転の計画とナビゲーションに関する詳細な情報を提供します。
ただし、既存の方法のほとんどは、占有グラウンド トゥルースを生成するために LiDAR 点群に大きく依存しており、ビジョンベースのシステムでは利用できません。
この論文では、自己監視型マルチカメラ占有予測のための OccNeRF 手法を提案します。
境界のある 3D 占有ラベルとは異なり、生の画像監視を伴う境界のないシーンを考慮する必要があります。
この問題を解決するために、再構成された占有フィールドをパラメータ化し、サンプリング戦略を再編成します。
ニューラル レンダリングは、マルチフレーム測光の一貫性によって管理され、占有フィールドをマルチカメラ深度マップに変換するために採用されています。
さらに、意味論的な占有予測のために、プロンプトを磨き、事前トレーニング済みのオープン語彙 2D セグメンテーション モデルの出力をフィルタリングするためのいくつかの戦略を設計します。
nuScenes データセットに対する自己教師あり深度推定タスクとセマンティック占有予測タスクの両方に対する広範な実験により、私たちの手法の有効性が実証されました。
要約(オリジナル)
As a fundamental task of vision-based perception, 3D occupancy prediction reconstructs 3D structures of surrounding environments. It provides detailed information for autonomous driving planning and navigation. However, most existing methods heavily rely on the LiDAR point clouds to generate occupancy ground truth, which is not available in the vision-based system. In this paper, we propose an OccNeRF method for self-supervised multi-camera occupancy prediction. Different from bounded 3D occupancy labels, we need to consider unbounded scenes with raw image supervision. To solve the issue, we parameterize the reconstructed occupancy fields and reorganize the sampling strategy. The neural rendering is adopted to convert occupancy fields to multi-camera depth maps, supervised by multi-frame photometric consistency. Moreover, for semantic occupancy prediction, we design several strategies to polish the prompts and filter the outputs of a pretrained open-vocabulary 2D segmentation model. Extensive experiments for both self-supervised depth estimation and semantic occupancy prediction tasks on nuScenes dataset demonstrate the effectiveness of our method.
arxiv情報
著者 | Chubin Zhang,Juncheng Yan,Yi Wei,Jiaxin Li,Li Liu,Yansong Tang,Yueqi Duan,Jiwen Lu |
発行日 | 2023-12-14 18:58:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google