Scene as Occupancy

要約

人間のドライバーは、視覚システムによって複雑な交通シーンを簡単に説明できます。
このような正確な認識能力は、ドライバーの計画に不可欠です。
これを達成するには、物理​​的な 3D シーンをセルごとの意味ラベルを持つ構造化されたグリッド マップに量子化する、3D 占有と呼ばれるジオメトリを意識した表現が望ましいでしょう。
境界ボックスの形式と比較して、占有の背後にある重要な洞察は、シーン内の重要な障害物の詳細をきめ細かくキャプチャできるため、その後のタスクが容易になるということです。
以前の文献や同時並行の文献は主に単一シーンの完了タスクに焦点を当てており、この占有表現の潜在的な可能性がより広範な影響をもたらす可能性があると主張するかもしれません。
この論文では、3D 占有を再構築するためのカスケードおよび時間ボクセル デコーダを備えたマルチビュー ビジョン中心のパイプラインである OccNet を提案します。
OccNet の中核となるのは、3D 物理世界を表現するための一般的な占有埋め込みです。
このような記述子は、検出、セグメンテーション、計画など、幅広い運転タスクに適用できます。
この新しい表現と私たちが提案するアルゴリズムの有効性を検証するために、nuScenes 上に構築された初の高密度で高品質の 3D 占有ベンチマークである OpenOcc を提案します。
実証実験では、複数のタスクにわたって明らかなパフォーマンスの向上があることが示されており、たとえば、動作計画では衝突率が 15% ~ 58% 減少することが確認されており、私たちの方法の優位性が実証されています。

要約(オリジナル)

Human driver can easily describe the complex traffic scene by visual system. Such an ability of precise perception is essential for driver’s planning. To achieve this, a geometry-aware representation that quantizes the physical 3D scene into structured grid map with semantic labels per cell, termed as 3D Occupancy, would be desirable. Compared to the form of bounding box, a key insight behind occupancy is that it could capture the fine-grained details of critical obstacles in the scene, and thereby facilitate subsequent tasks. Prior or concurrent literature mainly concentrate on a single scene completion task, where we might argue that the potential of this occupancy representation might obsess broader impact. In this paper, we propose OccNet, a multi-view vision-centric pipeline with a cascade and temporal voxel decoder to reconstruct 3D occupancy. At the core of OccNet is a general occupancy embedding to represent 3D physical world. Such a descriptor could be applied towards a wide span of driving tasks, including detection, segmentation and planning. To validate the effectiveness of this new representation and our proposed algorithm, we propose OpenOcc, the first dense high-quality 3D occupancy benchmark built on top of nuScenes. Empirical experiments show that there are evident performance gain across multiple tasks, e.g., motion planning could witness a collision rate reduction by 15%-58%, demonstrating the superiority of our method.

arxiv情報

著者 Wenwen Tong,Chonghao Sima,Tai Wang,Silei Wu,Hanming Deng,Li Chen,Yi Gu,Lewei Lu,Ping Luo,Dahua Lin,Hongyang Li
発行日 2023-06-06 12:57:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク