要約
ロボットの認識には、3D ジオメトリとセマンティクスの両方のモデリングが必要です。
既存の方法は通常、3D 境界ボックスの推定に焦点を当てており、より細かい幾何学的詳細は無視され、一般的な語彙外のオブジェクトの処理に苦労しています。
シーンの詳細な占有状態とセマンティクスを推定する 3D 占有予測は、これらの制限を克服するための新たな課題です。
3D 占有予測をサポートするために、特定のシーンに対して高密度で視認性を考慮したラベルを生成するラベル生成パイプラインを開発します。
このパイプラインは、ボクセルの高密度化、オクルージョン推論、および画像に基づくボクセルの洗練という 3 つのステージで構成されます。
Waymo Open Dataset と nuScenes Dataset から派生した 2 つのベンチマーク、つまり Occ3D-Waymo ベンチマークと Occ3D-nuScenes ベンチマークを確立しました。
さらに、さまざまなベースライン モデルを使用して、提案されたデータセットの広範な分析を提供します。
最後に、Coarse-to-Fine Occupancy (CTF-Occ) ネットワークと呼ばれる新しいモデルを提案します。これは、Occ3D ベンチマークで優れたパフォーマンスを示します。
コード、データ、ベンチマークは https://tsinghua-mars-lab.github.io/Occ3D/ でリリースされています。
要約(オリジナル)
Robotic perception requires the modeling of both 3D geometry and semantics. Existing methods typically focus on estimating 3D bounding boxes, neglecting finer geometric details and struggling to handle general, out-of-vocabulary objects. 3D occupancy prediction, which estimates the detailed occupancy states and semantics of a scene, is an emerging task to overcome these limitations. To support 3D occupancy prediction, we develop a label generation pipeline that produces dense, visibility-aware labels for any given scene. This pipeline comprises three stages: voxel densification, occlusion reasoning, and image-guided voxel refinement. We establish two benchmarks, derived from the Waymo Open Dataset and the nuScenes Dataset, namely Occ3D-Waymo and Occ3D-nuScenes benchmarks. Furthermore, we provide an extensive analysis of the proposed dataset with various baseline models. Lastly, we propose a new model, dubbed Coarse-to-Fine Occupancy (CTF-Occ) network, which demonstrates superior performance on the Occ3D benchmarks. The code, data, and benchmarks are released at https://tsinghua-mars-lab.github.io/Occ3D/.
arxiv情報
著者 | Xiaoyu Tian,Tao Jiang,Longfei Yun,Yucheng Mao,Huitong Yang,Yue Wang,Yilun Wang,Hang Zhao |
発行日 | 2023-06-15 17:53:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google