MonoOcc: Digging into Monocular Semantic Occupancy Prediction

要約

単眼セマンティック占有予測は、2D 画像のみからシーンの完全な 3D ジオメトリとセマンティック情報を推測することを目的としています。
特に自動運転車の 3D 認識を向上させる可能性があるため、大きな注目を集めています。
しかし、既存の方法は、3D シーンを復元するために比較的限られた情報を持つ複雑なカスケード フレームワークに依存しており、ネットワーク全体の出力、単一フレーム入力、小規模なバックボーンのみの監視に依存しています。
これらの課題は、フレームワークの最適化を妨げ、特に小さくて尾の長いオブジェクトに関して、劣った予測結果をもたらします。
これらの問題に対処するために、私たちは MonoOcc を提案します。
特に、(i) フレームワークの浅い層に対する監視としての補助的な意味損失と、視覚的な手がかりでボクセルの特徴を洗練するための画像条件付きクロスアテンションモジュールを提案することで、単眼占有予測フレームワークを改善し、(ii)
低コストのハードウェアで、時間情報とより豊富な知識をより大きな画像バックボーンから単眼の意味占有予測フレームワークに転送する蒸留モジュール。
これらの利点により、私たちの方法は、カメラベースの SemanticKITTI Scene Completion ベンチマークで最先端のパフォーマンスをもたらします。
コードとモデルは https://github.com/ucaszyp/MonoOcc からアクセスできます。

要約(オリジナル)

Monocular Semantic Occupancy Prediction aims to infer the complete 3D geometry and semantic information of scenes from only 2D images. It has garnered significant attention, particularly due to its potential to enhance the 3D perception of autonomous vehicles. However, existing methods rely on a complex cascaded framework with relatively limited information to restore 3D scenes, including a dependency on supervision solely on the whole network’s output, single-frame input, and the utilization of a small backbone. These challenges, in turn, hinder the optimization of the framework and yield inferior prediction results, particularly concerning smaller and long-tailed objects. To address these issues, we propose MonoOcc. In particular, we (i) improve the monocular occupancy prediction framework by proposing an auxiliary semantic loss as supervision to the shallow layers of the framework and an image-conditioned cross-attention module to refine voxel features with visual clues, and (ii) employ a distillation module that transfers temporal information and richer knowledge from a larger image backbone to the monocular semantic occupancy prediction framework with low cost of hardware. With these advantages, our method yields state-of-the-art performance on the camera-based SemanticKITTI Scene Completion benchmark. Codes and models can be accessed at https://github.com/ucaszyp/MonoOcc

arxiv情報

著者 Yupeng Zheng,Xiang Li,Pengfei Li,Yuhang Zheng,Bu Jin,Chengliang Zhong,Xiaoxiao Long,Hao Zhao,Qichao Zhang
発行日 2024-03-13 17:59:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク