要約
視力ベースの3Dセマンティック占有率予測(VisionCC)の時間的融合法であるGDFusionを提示します。
GDFusionは、VisionCCフレームワーク内の一時的な融合の未使用の側面を開き、時間的キューと融合戦略の両方に焦点を当てます。
VisionOCCパイプライン全体を体系的に調べて、3つの基本的でありながら以前見落とされがちな時間的キューを特定します。シーンレベルの一貫性、モーションキャリブレーション、幾何学的補完です。
これらのキューは、時間的進化の多様な側面をキャプチャし、VisionCCフレームワークのさまざまなモジュールにわたって明確な貢献をします。
不均一な表現全体で時間信号を効果的に融合するために、バニラRNNの定式化を再解釈することにより、新しい融合戦略を提案します。
この再解釈は、多様な時間情報の統合を統合するために機能に勾配降下を活用し、提案された時間的キューをネットワークにシームレスに埋め込みます。
ヌスセンに関する広範な実験は、GdFusionが確立されたベースラインを大幅に上回ることを示しています。
特に、OCC3Dベンチマークでは、1.4 \%-4.8 \%MIOUの改善を達成し、メモリ消費を27 \%-72 \%減少させます。
要約(オリジナル)
We present GDFusion, a temporal fusion method for vision-based 3D semantic occupancy prediction (VisionOcc). GDFusion opens up the underexplored aspects of temporal fusion within the VisionOcc framework, focusing on both temporal cues and fusion strategies. It systematically examines the entire VisionOcc pipeline, identifying three fundamental yet previously overlooked temporal cues: scene-level consistency, motion calibration, and geometric complementation. These cues capture diverse facets of temporal evolution and make distinct contributions across various modules in the VisionOcc framework. To effectively fuse temporal signals across heterogeneous representations, we propose a novel fusion strategy by reinterpreting the formulation of vanilla RNNs. This reinterpretation leverages gradient descent on features to unify the integration of diverse temporal information, seamlessly embedding the proposed temporal cues into the network. Extensive experiments on nuScenes demonstrate that GDFusion significantly outperforms established baselines. Notably, on Occ3D benchmark, it achieves 1.4\%-4.8\% mIoU improvements and reduces memory consumption by 27\%-72\%.
arxiv情報
著者 | Dubing Chen,Huan Zheng,Jin Fang,Xingping Dong,Xianfei Li,Wenlong Liao,Tao He,Pai Peng,Jianbing Shen |
発行日 | 2025-04-18 15:58:20+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google