要約
ワイルド内のLidarベースの形状完了のために、Cal(Lidarですべてを完了)を提案します。
これは、LIDARベースのセマンティック/パノプティックシーンの完成と密接に関連しています。
ただし、現代の方法は、既存のLIDARデータセットにラベル付けされた閉じた語彙からのみオブジェクトを完成させて認識できます。
それとは違う、当社のゼロショットアプローチは、マルチモーダルセンサーシーケンスから、観測されたオブジェクトのオブジェクトの形状とセマンティックな特徴まで、時間的コンテキストを活用します。
これらは、LIDARのみのインスタンスレベルの完了と認識モデルに蒸留されます。
部分的な形状の完成のみを採掘しますが、蒸留モデルは、データセット全体の複数のそのような部分的な観測から完全なオブジェクト形状を推測することを学ぶことがわかります。
モデルは、セマンティックおよびパノプティックシーンの完了のために標準のベンチマークで促され、オブジェクトを(amodal)3D境界ボックスとしてローカライズし、固定クラスの語彙を超えたオブジェクトを認識できることを示します。
プロジェクトページはhttps://research.nvidia.com/labs/dvl/projects/complete-anything-lidarです
要約(オリジナル)
We propose CAL (Complete Anything in Lidar) for Lidar-based shape-completion in-the-wild. This is closely related to Lidar-based semantic/panoptic scene completion. However, contemporary methods can only complete and recognize objects from a closed vocabulary labeled in existing Lidar datasets. Different to that, our zero-shot approach leverages the temporal context from multi-modal sensor sequences to mine object shapes and semantic features of observed objects. These are then distilled into a Lidar-only instance-level completion and recognition model. Although we only mine partial shape completions, we find that our distilled model learns to infer full object shapes from multiple such partial observations across the dataset. We show that our model can be prompted on standard benchmarks for Semantic and Panoptic Scene Completion, localize objects as (amodal) 3D bounding boxes, and recognize objects beyond fixed class vocabularies. Our project page is https://research.nvidia.com/labs/dvl/projects/complete-anything-lidar
arxiv情報
著者 | Ayca Takmaz,Cristiano Saltori,Neehar Peri,Tim Meinhardt,Riccardo de Lutio,Laura Leal-Taixé,Aljoša Ošep |
発行日 | 2025-04-16 17:21:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google