要約
自律走行システムの成功には、3Dシーンにおける全体的な理解と推論が重要な役割を果たす。自律走行やロボットの下流タスクの事前学習タスクとしての3D意味的占有予測の進化は、3D検出のような手法と比較して、より細かい3Dの詳細を捉える。既存のアプローチは、主に3視点ビュー埋め込み(TPV)のような空間的な手がかりに焦点を当てており、多くの場合、時間的な手がかりを見落としている。本研究では、時間的にコヒーレントな3Dセマンティック占有予測のための時空間変換アーキテクチャS2TPVFormerを導入する。我々は、新しい時間的クロスビューハイブリッド注意メカニズム(TCVHA)を用いて、時間的手がかりを含めることにより事前処理を充実させ、時空間TPV埋め込み(すなわちS2TPV埋め込み)を生成する。nuScenesデータセットを用いた実験評価では、TPVFormerと比較して、3D Semantic Occupancyの平均Intersection over Union (mIoU)が4.1%改善され、3Dシーン知覚の向上における提案するS2TPVFormerの有効性が確認された。
要約(オリジナル)
Holistic understanding and reasoning in 3D scenes play a vital role in the success of autonomous driving systems. The evolution of 3D semantic occupancy prediction as a pretraining task for autonomous driving and robotic downstream tasks capture finer 3D details compared to methods like 3D detection. Existing approaches predominantly focus on spatial cues such as tri-perspective view embeddings (TPV), often overlooking temporal cues. This study introduces a spatiotemporal transformer architecture S2TPVFormer for temporally coherent 3D semantic occupancy prediction. We enrich the prior process by including temporal cues using a novel temporal cross-view hybrid attention mechanism (TCVHA) and generate spatiotemporal TPV embeddings (i.e. S2TPV embeddings). Experimental evaluations on the nuScenes dataset demonstrate a substantial 4.1% improvement in mean Intersection over Union (mIoU) for 3D Semantic Occupancy compared to TPVFormer, confirming the effectiveness of the proposed S2TPVFormer in enhancing 3D scene perception.
arxiv情報
著者 | Sathira Silva,Savindu Bhashitha Wannigama,Gihan Jayatilaka,Muhammad Haris Khan,Roshan Ragel |
発行日 | 2024-04-04 13:52:17+00:00 |
arxivサイト | arxiv_id(pdf) |