要約
3Dセマンティックシーン完了(SSC)としても知られるビジョンベースの占有予測は、コンピュータービジョンに大きな課題を提示します。
オンボード処理に限定された以前の方法は、同時幾何学的およびセマンティック推定、さまざまな視点にわたる連続性、およびシングルビュー閉塞との闘いでした。
私たちの論文では、視力ベースの占有予測の精度を高めるために設計された新しいオフボードフレームワークであるOccfinerを紹介します。
Occfinerは、2つのハイブリッドフェーズで動作します。1)マルチからマルチまでのローカル伝播ネットワークで、オンボードモデルエラーを修正し、すべての距離で占有の精度を一貫して強化するために複数のローカルフレームを暗黙的に整列および処理します。
2)地域中心のグローバル伝播は、特に離れた占有ボクセルの精度を高めるために、明示的なマルチビュージオメトリと統合センサーバイアスを使用したラベルの改良に焦点を当てています。
広範な実験は、OccFinerがさまざまな種類の粗い占有率にわたって幾何学的精度とセマンティック精度の両方を改善し、Semantickittiデータセットで新しい最先端のパフォーマンスを設定することを示しています。
特に、Occfinerは視覚ベースのSSCモデルのパフォーマンスを大幅に向上させ、確立されたLIDARベースのオンボードSSCメソッドと競合する精度レベルを達成します。
さらに、Occfinerは、純粋にビジョンベースのアプローチでSSCの自動注釈を最初に達成しました。
定量的実験により、Occfinerは自律運転における占有データループクロージャーを正常に促進することが証明されています。
さらに、都市レベルのSSC静的マップでのオフボードアプローチの優位性を定量的かつ定性的に検証します。
ソースコードは、https://github.com/masterhow/occfinerで公開されます。
要約(オリジナル)
Vision-based occupancy prediction, also known as 3D Semantic Scene Completion (SSC), presents a significant challenge in computer vision. Previous methods, confined to onboard processing, struggle with simultaneous geometric and semantic estimation, continuity across varying viewpoints, and single-view occlusion. Our paper introduces OccFiner, a novel offboard framework designed to enhance the accuracy of vision-based occupancy predictions. OccFiner operates in two hybrid phases: 1) a multi-to-multi local propagation network that implicitly aligns and processes multiple local frames for correcting onboard model errors and consistently enhancing occupancy accuracy across all distances. 2) the region-centric global propagation, focuses on refining labels using explicit multi-view geometry and integrating sensor bias, particularly for increasing the accuracy of distant occupied voxels. Extensive experiments demonstrate that OccFiner improves both geometric and semantic accuracy across various types of coarse occupancy, setting a new state-of-the-art performance on the SemanticKITTI dataset. Notably, OccFiner significantly boosts the performance of vision-based SSC models, achieving accuracy levels competitive with established LiDAR-based onboard SSC methods. Furthermore, OccFiner is the first to achieve automatic annotation of SSC in a purely vision-based approach. Quantitative experiments prove that OccFiner successfully facilitates occupancy data loop-closure in autonomous driving. Additionally, we quantitatively and qualitatively validate the superiority of the offboard approach on city-level SSC static maps. The source code will be made publicly available at https://github.com/MasterHow/OccFiner.
arxiv情報
著者 | Hao Shi,Song Wang,Jiaming Zhang,Xiaoting Yin,Guangming Wang,Jianke Zhu,Kailun Yang,Kaiwei Wang |
発行日 | 2025-05-19 08:07:29+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google