要約
3D セマンティック占有予測は自動運転に不可欠な部分であり、シーンの幾何学的詳細をキャプチャすることに重点を置いています。
オフロード環境には幾何学的情報が豊富であるため、そのようなシーンを再構成する 3D セマンティック占有予測タスクに適しています。
ただし、ほとんどの研究はオンロード環境に集中しており、関連するデータセットやベンチマークが不足しているため、オフロード 3D セマンティック占有予測用に設計された方法はほとんどありません。
このギャップに対応して、私たちの知る限り、オフロード 3D セマンティック占有予測タスクに高密度占有アノテーションを提供する最初のベンチマークである WildOcc を導入しました。
この論文では、より現実的な結果を達成するために粗いものから細かいものへの再構成を採用するグランド トゥルース生成パイプラインを提案します。
さらに、マルチフレーム画像と点群からの時空間情報をボクセルレベルで融合する、マルチモーダル 3D セマンティック占有予測フレームワークを導入します。
さらに、点群から画像特徴に幾何学的知識を転送するクロスモダリティ蒸留機能が導入されています。
要約(オリジナル)
3D semantic occupancy prediction is an essential part of autonomous driving, focusing on capturing the geometric details of scenes. Off-road environments are rich in geometric information, therefore it is suitable for 3D semantic occupancy prediction tasks to reconstruct such scenes. However, most of researches concentrate on on-road environments, and few methods are designed for off-road 3D semantic occupancy prediction due to the lack of relevant datasets and benchmarks. In response to this gap, we introduce WildOcc, to our knowledge, the first benchmark to provide dense occupancy annotations for off-road 3D semantic occupancy prediction tasks. A ground truth generation pipeline is proposed in this paper, which employs a coarse-to-fine reconstruction to achieve a more realistic result. Moreover, we introduce a multi-modal 3D semantic occupancy prediction framework, which fuses spatio-temporal information from multi-frame images and point clouds at voxel level. In addition, a cross-modality distillation function is introduced, which transfers geometric knowledge from point clouds to image features.
arxiv情報
著者 | Heng Zhai,Jilin Mei,Chen Min,Liang Chen,Fangzhou Zhao,Yu Hu |
発行日 | 2024-10-21 09:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google