要約
本論文では、マルチビュー画像からの3次元占有率予測のための新しい点表現を探求する。既存のカメラベースの手法は、シーン全体の占有率を予測するために、密なボリュームベースの表現を利用する傾向がある。これに比べ、我々は、シーンを表現するためのPOI(Points of Interest)を提示し、ポイントベースの3D占有予測のための新しいフレームワークであるOSPを提案する。点ベースの表現が持つ固有の柔軟性により、OSPは既存の手法と比較して高い性能を達成し、学習と推論の適応性の点で優れている。OSPは従来の知覚の境界を超え、ボリュームベースの手法とシームレスに統合することができ、その有効性を大幅に高めることができる。Occ3D nuScenes占有ベンチマークでの実験から、OSPが強力な性能と柔軟性を持つことが示されました。コードとモデルは ゙url{https://github.com/hustvl/osp}にあります。
要約(オリジナル)
In this paper, we explore a novel point representation for 3D occupancy prediction from multi-view images, which is named Occupancy as Set of Points. Existing camera-based methods tend to exploit dense volume-based representation to predict the occupancy of the whole scene, making it hard to focus on the special areas or areas out of the perception range. In comparison, we present the Points of Interest (PoIs) to represent the scene and propose OSP, a novel framework for point-based 3D occupancy prediction. Owing to the inherent flexibility of the point-based representation, OSP achieves strong performance compared with existing methods and excels in terms of training and inference adaptability. It extends beyond traditional perception boundaries and can be seamlessly integrated with volume-based methods to significantly enhance their effectiveness. Experiments on the Occ3D nuScenes occupancy benchmark show that OSP has strong performance and flexibility. Code and models are available at \url{https://github.com/hustvl/osp}.
arxiv情報
著者 | Yiang Shi,Tianheng Cheng,Qian Zhang,Wenyu Liu,Xinggang Wang |
発行日 | 2024-07-04 16:46:22+00:00 |
arxivサイト | arxiv_id(pdf) |