要約
動的シーンのリアルタイム 4D 再構成は、自動運転の知覚にとって依然として重要な課題です。
既存の方法のほとんどは、自己監視またはマルチモダリティ センサー フュージョンによる深度推定に依存しています。
この論文では、多視点画像シーケンスからフレームごとのポイント マップを直接回帰する DUSt3R ベースのフレームワークである Driv3R を提案します。
ストリーミング高密度再構成を実現するために、センサー間の空間関係と動的な時間コンテキストの両方を推論するメモリ プールを維持し、マルチビュー 3D の一貫性と時間統合を強化します。
さらに、4D フロー プレディクターを使用してシーン内の移動物体を識別し、ネットワークがこれらの動的領域の再構築にさらに重点を置くように指示します。
最後に、最適化を行わない方法で、すべてのフレームごとのポイントマップを一貫して世界座標系に合わせます。
私たちは、大規模な nuScenes データセットで広範な実験を実施し、手法の有効性を評価します。
Driv3R は、4D 動的シーン再構築において以前のフレームワークよりも優れたパフォーマンスを発揮し、グローバル アライメントを必要とする方法と比較して 15 倍速い推論速度を達成します。
コード: https://github.com/Barrybarry-Smith/Driv3R。
要約(オリジナル)
Realtime 4D reconstruction for dynamic scenes remains a crucial challenge for autonomous driving perception. Most existing methods rely on depth estimation through self-supervision or multi-modality sensor fusion. In this paper, we propose Driv3R, a DUSt3R-based framework that directly regresses per-frame point maps from multi-view image sequences. To achieve streaming dense reconstruction, we maintain a memory pool to reason both spatial relationships across sensors and dynamic temporal contexts to enhance multi-view 3D consistency and temporal integration. Furthermore, we employ a 4D flow predictor to identify moving objects within the scene to direct our network focus more on reconstructing these dynamic regions. Finally, we align all per-frame pointmaps consistently to the world coordinate system in an optimization-free manner. We conduct extensive experiments on the large-scale nuScenes dataset to evaluate the effectiveness of our method. Driv3R outperforms previous frameworks in 4D dynamic scene reconstruction, achieving 15x faster inference speed compared to methods requiring global alignment. Code: https://github.com/Barrybarry-Smith/Driv3R.
arxiv情報
著者 | Xin Fei,Wenzhao Zheng,Yueqi Duan,Wei Zhan,Masayoshi Tomizuka,Kurt Keutzer,Jiwen Lu |
発行日 | 2024-12-09 18:58:03+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google