InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

要約

この論文では、3D セマンティック占有予測のためにマルチビュー画像特徴を 3D 特徴ボリュームに変換する効率的な方法である InverseMatrixVT3D を紹介します。
3D ボリュームを構築するための既存の方法は、深度推定、デバイス固有の演算子、または変換クエリに依存することが多く、これが 3D 占有モデルの広範な採用の妨げとなっています。
対照的に、私たちのアプローチでは、2 つの投影行列を利用して静的マッピング関係と行列の乗算を保存し、グローバル鳥瞰図 (BEV) フィーチャとローカル 3D フィーチャ ボリュームを効率的に生成します。
具体的には、多視点画像の特徴マップと 2 つの疎な射影行列の間で行列の乗算を実行することでこれを実現します。
GPU メモリの使用量を最適化するために、射影行列のスパース行列処理手法を導入します。
さらに、グローバル-ローカル アテンション フュージョン モジュールは、グローバル BEV 特徴をローカル 3D 特徴ボリュームと統合して、最終的な 3D ボリュームを取得するために提案されています。
また、パフォーマンスをさらに向上させるために、マルチスケール監視メカニズムも採用しています。
nuScenes と SemanticKITTI データセットに対して行われた広範な実験により、私たちのアプローチはそのシンプルさと有効性で際立っているだけでなく、自動運転と交通安全に不可欠な交通弱者 (VRU) の検出において最高のパフォーマンスを達成していることが明らかになりました。
コードは https://github.com/DanielMing123/InverseMatrixVT3D から入手できます。

要約(オリジナル)

This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird’s Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimize GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to enhance performance further. Extensive experiments performed on the nuScenes and SemanticKITTI datasets reveal that our approach not only stands out for its simplicity and effectiveness but also achieves the top performance in detecting vulnerable road users (VRU), crucial for autonomous driving and road safety. The code has been made available at: https://github.com/DanielMing123/InverseMatrixVT3D

arxiv情報

著者 Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Stewart Worrall
発行日 2024-04-29 07:14:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク