Occ3D: A Large-Scale 3D Occupancy Prediction Benchmark for Autonomous Driving

要約

タイトル:自動運転用の大規模3D占有率予測ベンチマーク「Occ3D」

要約:
– AIが自律移動する際に必要なのは、3Dジオメトリと意味のモデリング。
– 一般的な既存の手法は3Dバウンディングボックスの推定に重点を置いているため、細かいジオメトリの詳細を無視して一般的なオブジェクトに対応することに苦戦している。
– そのような制限を克服するために、複数ビューの画像からオブジェクトの詳細な占有率と意味を推定する新しい3D占有率予測の課題を提案する。
– このタスクを容易化するために、点群集約、点ラベリング、遮蔽の処理を含むラベル生成パイプラインを開発した。
– WaymoオープンデータセットとnuScenesデータセットをベースにした2つのベンチマークを構築し、「Occ3D-Waymo」と「Occ3D-nuScenes」をリリースした。
– 最後に、「CTF-Occ」ネットワークと呼ばれるモデルを提案し、3D占有率予測タスクにおいて優れた性能を発揮した。また、この手法は粗から細へとより細かいジオメトリ理解のニーズに対応することができる。
– コード、データ、およびベンチマークはhttps://tsinghua-mars-lab.github.io/Occ3D/にて公開されている。

要約(オリジナル)

Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. To overcome these limitations, we introduce a novel task for 3D occupancy prediction, which aims to estimate the detailed occupancy and semantics of objects from multi-view images. To facilitate this task, we develop a label generation pipeline that produces dense, visibility-aware labels for a given scene. This pipeline includes point cloud aggregation, point labeling, and occlusion handling. We construct two benchmarks based on the Waymo Open Dataset and the nuScenes Dataset, resulting in the Occ3D-Waymo and Occ3D-nuScenes benchmarks. Lastly, we propose a model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance in the 3D occupancy prediction task. This approach addresses the need for finer geometric understanding in a coarse-to-fine fashion. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.

arxiv情報

著者 Xiaoyu Tian,Tao Jiang,Longfei Yun,Yue Wang,Yilun Wang,Hang Zhao
発行日 2023-04-27 17:40:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク