Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance

要約

3Dセマンティックシーンの完了(SSC)は、自律的な運転知覚のための包括的なシーンのジオメトリとセマンティクスを提供します。これは、正確で信頼できる意思決定を可能にするために重要です。
ただし、既存のSSCメソッドは、現在のフレームからまばらな情報をキャプチャするか、マルチフレームの時間的機能を素朴に積み重ねることに限定されているため、効果的なシーンコンテキストの取得に失敗します。
これらのアプローチは、重要な動きのダイナミクスを無視し、時間的一貫性を達成するために苦労しています。
上記の課題に対処するために、新しい時間的SSCメソッドフローセンを提案します。光フローガイダンスを介して時間的な3Dセマンティックシーンの完成を学習します。
光の流れを活用することにより、フローセンは動き、異なる視点、オクルージョン、およびその他の文脈的キューを統合することができ、それにより3Dシーンの完了の精度を大幅に改善します。
具体的には、我々のフレームワークでは、2つの重要なコンポーネントを紹介します。(1)光フローを使用して時間的特徴を整列および集約するフロー誘導時間集約モジュール、モーション認識コンテキストと変形可能な構造をキャプチャします。
(2)閉塞マスクと一時的に集約された特徴を3Dボクセル空間に注入するオクルージョン誘導ボクセル洗練モジュール。
実験結果は、FlowsceneがSemantickittiおよびSSCBench-Kitti-360ベンチマークで最先端のパフォーマンスを達成することを示しています。

要約(オリジナル)

3D Semantic Scene Completion (SSC) provides comprehensive scene geometry and semantics for autonomous driving perception, which is crucial for enabling accurate and reliable decision-making. However, existing SSC methods are limited to capturing sparse information from the current frame or naively stacking multi-frame temporal features, thereby failing to acquire effective scene context. These approaches ignore critical motion dynamics and struggle to achieve temporal consistency. To address the above challenges, we propose a novel temporal SSC method FlowScene: Learning Temporal 3D Semantic Scene Completion via Optical Flow Guidance. By leveraging optical flow, FlowScene can integrate motion, different viewpoints, occlusions, and other contextual cues, thereby significantly improving the accuracy of 3D scene completion. Specifically, our framework introduces two key components: (1) a Flow-Guided Temporal Aggregation module that aligns and aggregates temporal features using optical flow, capturing motion-aware context and deformable structures; and (2) an Occlusion-Guided Voxel Refinement module that injects occlusion masks and temporally aggregated features into 3D voxel space, adaptively refining voxel representations for explicit geometric modeling. Experimental results demonstrate that FlowScene achieves state-of-the-art performance on the SemanticKITTI and SSCBench-KITTI-360 benchmarks.

arxiv情報

著者 Meng Wang,Fan Wu,Ruihui Li,Yunchuan Qin,Zhuo Tang,Kenli Li
発行日 2025-02-20 12:52:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク