要約
シーンのセマンティクスと 3D 構造を予測することは、ロボットが安全に移動し、行動を計画するために不可欠です。
最近の方法では、意味論的およびパノプティックなシーン予測が研究されています。
ただし、シーンのジオメトリは考慮されません。
この研究では、単眼カメラ画像から、未観察の将来のフレームのパノプティックセグメンテーションと深度マップを組み合わせて予測するためのパノプティック深度予測タスクを提案します。
この作業を容易にするために、LiDAR 点群から深度マップを計算し、連続したラベル付きデータを活用することで、人気の KITTI-360 ベンチマークと Cityscapes ベンチマークを拡張しました。
また、パノプティック品質と予測の深度推定精度の両方を一貫した方法で定量化する適切な評価指標も導入します。
さらに、我々は 2 つのベースラインを提示し、トランスフォーマーベースのエンコーダー、予測モジュール、タスク固有のデコーダーを組み込んで豊かな時空間表現を学習し、将来のパノプティック深度出力を予測する新しい PDcast アーキテクチャを提案します。
広範な評価により、2 つのデータセットと 3 つの予測タスクにわたる PDcast の有効性が実証され、主な課題に一貫して対処しています。
コードは https://pdcast.cs.uni-freiburg.de で公開されています。
要約(オリジナル)
Forecasting the semantics and 3D structure of scenes is essential for robots to navigate and plan actions safely. Recent methods have explored semantic and panoptic scene forecasting; however, they do not consider the geometry of the scene. In this work, we propose the panoptic-depth forecasting task for jointly predicting the panoptic segmentation and depth maps of unobserved future frames, from monocular camera images. To facilitate this work, we extend the popular KITTI-360 and Cityscapes benchmarks by computing depth maps from LiDAR point clouds and leveraging sequential labeled data. We also introduce a suitable evaluation metric that quantifies both the panoptic quality and depth estimation accuracy of forecasts in a coherent manner. Furthermore, we present two baselines and propose the novel PDcast architecture that learns rich spatio-temporal representations by incorporating a transformer-based encoder, a forecasting module, and task-specific decoders to predict future panoptic-depth outputs. Extensive evaluations demonstrate the effectiveness of PDcast across two datasets and three forecasting tasks, consistently addressing the primary challenges. We make the code publicly available at https://pdcast.cs.uni-freiburg.de.
arxiv情報
著者 | Juana Valeria Hurtado,Riya Mohan,Abhinav Valada |
発行日 | 2024-09-18 14:21:07+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google