PanoOcc: Unified Occupancy Representation for Camera-based 3D Panoptic Segmentation

要約

周囲の 3D 世界の包括的なモデリングが自動運転の成功の鍵です。
ただし、物体検出、道路構造のセグメンテーション、深さと標高の推定、オープンセットの物体位置特定などの既存の認識タスクは、それぞれ、全体的な 3D シーンの理解タスクの小さな側面にのみ焦点を当てています。
この分割統治戦略は、問題に対するエンドツーエンドの統一された解決策を失うという犠牲を払って、アルゴリズム開発手順を簡素化します。
この研究では、カメラベースの 3D パノプティック セグメンテーションを研究することでこの制限に対処し、カメラのみの 3D シーンを理解するための統一された占有表現を達成することを目指しています。
これを達成するために、PanoOcc と呼ばれる新しい方法を導入します。この方法は、ボクセル クエリを利用して、粗密スキームでマルチフレームおよびマルチビューの画像から時空間情報を集約し、特徴学習とシーン表現を統合された占有表現に統合します。
我々は、提案された方法の有効性と効率を検証するために、広範なアブレーション研究を実施しました。
私たちのアプローチは、nuScenes データセット上のカメラベースのセマンティック セグメンテーションとパノプティック セグメンテーションの新しい最先端の結果を達成します。
さらに、私たちの方法は密な占有予測に簡単に拡張でき、Occ3D ベンチマークで有望なパフォーマンスを示しています。
コードは https://github.com/Robertwyq/PanoOcc でリリースされます。

要約(オリジナル)

Comprehensive modeling of the surrounding 3D world is key to the success of autonomous driving. However, existing perception tasks like object detection, road structure segmentation, depth & elevation estimation, and open-set object localization each only focus on a small facet of the holistic 3D scene understanding task. This divide-and-conquer strategy simplifies the algorithm development procedure at the cost of losing an end-to-end unified solution to the problem. In this work, we address this limitation by studying camera-based 3D panoptic segmentation, aiming to achieve a unified occupancy representation for camera-only 3D scene understanding. To achieve this, we introduce a novel method called PanoOcc, which utilizes voxel queries to aggregate spatiotemporal information from multi-frame and multi-view images in a coarse-to-fine scheme, integrating feature learning and scene representation into a unified occupancy representation. We have conducted extensive ablation studies to verify the effectiveness and efficiency of the proposed method. Our approach achieves new state-of-the-art results for camera-based semantic segmentation and panoptic segmentation on the nuScenes dataset. Furthermore, our method can be easily extended to dense occupancy prediction and has shown promising performance on the Occ3D benchmark. The code will be released at https://github.com/Robertwyq/PanoOcc.

arxiv情報

著者 Yuqi Wang,Yuntao Chen,Xingyu Liao,Lue Fan,Zhaoxiang Zhang
発行日 2023-06-16 17:59:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク