Unified Spatio-Temporal Tri-Perspective View Representation for 3D Semantic Occupancy Prediction

要約

自律走行システムの成功には、3Dシーンにおける全体的な理解と推論が重要な役割を果たす。自律走行やロボットの下流タスクの事前学習タスクとしての3D意味的占有予測の進化は、3D検出のような手法と比較して、より細かい3Dの詳細を捉える。既存のアプローチは、主に3視点ビュー埋め込み(TPV)のような空間的な手がかりに焦点を当てており、多くの場合、時間的な手がかりを見落としている。本研究では、時間的にコヒーレントな3Dセマンティック占有予測のための時空間変換アーキテクチャS2TPVFormerを導入する。我々は、新しい時間的クロスビューハイブリッド注意メカニズム(TCVHA)を用いて、時間的手がかりを含めることにより事前処理を充実させ、時空間TPV埋め込み(すなわちS2TPV埋め込み)を生成する。nuScenesデータセットを用いた実験評価では、TPVFormerと比較して、3D Semantic Occupancyの平均Intersection over Union (mIoU)が4.1%改善され、3Dシーン知覚の向上における提案するS2TPVFormerの有効性が確認された。

要約(オリジナル)

Holistic understanding and reasoning in 3D scenes play a vital role in the success of autonomous driving systems. The evolution of 3D semantic occupancy prediction as a pretraining task for autonomous driving and robotic downstream tasks capture finer 3D details compared to methods like 3D detection. Existing approaches predominantly focus on spatial cues such as tri-perspective view embeddings (TPV), often overlooking temporal cues. This study introduces a spatiotemporal transformer architecture S2TPVFormer for temporally coherent 3D semantic occupancy prediction. We enrich the prior process by including temporal cues using a novel temporal cross-view hybrid attention mechanism (TCVHA) and generate spatiotemporal TPV embeddings (i.e. S2TPV embeddings). Experimental evaluations on the nuScenes dataset demonstrate a substantial 4.1% improvement in mean Intersection over Union (mIoU) for 3D Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the proposed S2TPVFormer in enhancing 3D scene perception.

arxiv情報

著者 Sathira Silva,Savindu Bhashitha Wannigama,Gihan Jayatilaka,Muhammad Haris Khan,Roshan Ragel
発行日 2024-04-04 13:52:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク