Cam4DOcc: Benchmark for Camera-Only 4D Occupancy Forecasting in Autonomous Driving Applications

要約

自動運転アプリケーションで下流のタスクを安全かつ確実に実行するには、周囲の環境がどのように変化するかを理解することが重要です。
入力としてカメラ画像のみを使用する最近の占有推定技術は、現在の観測に基づいて大規模シーンの高密度の占有表現を提供できます。
ただし、それらはほとんどが現在の 3D 空間を表すことに限定されており、時間軸に沿った周囲のオブジェクトの将来の状態は考慮されていません。
カメラのみの占有推定を時空間予測に拡張するために、近い将来の周囲のシーンの変化を評価する、カメラのみの 4D 占有予測の新しいベンチマークである Cam4DOcc を提案します。
私たちは、nuScenes、nuScenes-Occupancy、Lyft-Level5 など、一般に公開されている複数のデータセットに基づいてベンチマークを構築します。Lyft-Level5 は、一般的な可動オブジェクトと静的オブジェクトの連続的な占有状態と、それらの 3D 後方求心フローを提供します。
包括的な比較による将来の研究のためのこのベンチマークを確立するために、静的世界占有モデル、点群予測のボクセル化、2D-3D インスタンスベースの予測、および
新しいエンドツーエンドの 4D 占有予測ネットワークを提案しました。
さらに、自動運転シナリオにおける対象物体に関する現在および将来の占有率推定に関して、提案されているすべてのベースラインのパフォーマンスを比較するために、事前に設定された複数のタスクの標準化された評価プロトコルも提供されます。
データセットと、提案されている Cam4DOcc ベンチマークの 4 つのベースラインすべての実装は、https://github.com/haomo-ai/Cam4DOcc でリリースされます。

要約(オリジナル)

Understanding how the surrounding environment changes is crucial for performing downstream tasks safely and reliably in autonomous driving applications. Recent occupancy estimation techniques using only camera images as input can provide dense occupancy representations of large-scale scenes based on the current observation. However, they are mostly limited to representing the current 3D space and do not consider the future state of surrounding objects along the time axis. To extend camera-only occupancy estimation into spatiotemporal prediction, we propose Cam4DOcc, a new benchmark for camera-only 4D occupancy forecasting, evaluating the surrounding scene changes in a near future. We build our benchmark based on multiple publicly available datasets, including nuScenes, nuScenes-Occupancy, and Lyft-Level5, which provides sequential occupancy states of general movable and static objects, as well as their 3D backward centripetal flow. To establish this benchmark for future research with comprehensive comparisons, we introduce four baseline types from diverse camera-based perception and prediction implementations, including a static-world occupancy model, voxelization of point cloud prediction, 2D-3D instance-based prediction, and our proposed novel end-to-end 4D occupancy forecasting network. Furthermore, the standardized evaluation protocol for preset multiple tasks is also provided to compare the performance of all the proposed baselines on present and future occupancy estimation with respect to objects of interest in autonomous driving scenarios. The dataset and our implementation of all four baselines in the proposed Cam4DOcc benchmark will be released here: https://github.com/haomo-ai/Cam4DOcc.

arxiv情報

著者 Junyi Ma,Xieyuanli Chen,Jiawei Huang,Jingyi Xu,Zhen Luo,Jintao Xu,Weihao Gu,Rui Ai,Hesheng Wang
発行日 2023-11-29 14:25:46+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク