InverseMatrixVT3D: An Efficient Projection Matrix-Based Approach for 3D Occupancy Prediction

要約

この論文では、3D セマンティック占有予測のためにマルチビュー画像特徴を 3D 特徴ボリュームに変換する効率的な方法である InverseMatrixVT3D を紹介します。
3D ボリュームを構築するための既存の方法は、深度推定、デバイス固有の演算子、または変換クエリに依存することが多く、これが 3D 占有モデルの広範な採用の妨げとなっています。
対照的に、私たちのアプローチでは、2 つの投影行列を利用して静的マッピング関係と行列の乗算を保存し、グローバル鳥瞰図 (BEV) フィーチャとローカル 3D フィーチャ ボリュームを効率的に生成します。
具体的には、多視点画像の特徴マップと 2 つの疎な射影行列の間で行列の乗算を実行することでこれを実現します。
GPU メモリの使用量を最適化するために、射影行列のスパース行列処理手法を導入します。
さらに、グローバル-ローカル アテンション フュージョン モジュールは、グローバル BEV 特徴をローカル 3D 特徴ボリュームと統合して、最終的な 3D ボリュームを取得するために提案されています。
また、パフォーマンスをさらに向上させるために、マルチスケール監視メカニズムも採用しています。
nuScenes データセットの包括的な実験により、私たちの手法のシンプルさと有効性が実証されました。
コードはhttps://github.com/DanielMing123/InverseMatrixVT3Dで入手可能になります。

要約(オリジナル)

This paper introduces InverseMatrixVT3D, an efficient method for transforming multi-view image features into 3D feature volumes for 3D semantic occupancy prediction. Existing methods for constructing 3D volumes often rely on depth estimation, device-specific operators, or transformer queries, which hinders the widespread adoption of 3D occupancy models. In contrast, our approach leverages two projection matrices to store the static mapping relationships and matrix multiplications to efficiently generate global Bird’s Eye View (BEV) features and local 3D feature volumes. Specifically, we achieve this by performing matrix multiplications between multi-view image feature maps and two sparse projection matrices. We introduce a sparse matrix handling technique for the projection matrices to optimise GPU memory usage. Moreover, a global-local attention fusion module is proposed to integrate the global BEV features with the local 3D feature volumes to obtain the final 3D volume. We also employ a multi-scale supervision mechanism to further enhance performance. Comprehensive experiments on the nuScenes dataset demonstrate the simplicity and effectiveness of our method. The code will be made available at:https://github.com/DanielMing123/InverseMatrixVT3D

arxiv情報

著者 Zhenxing Ming,Julie Stephany Berrio,Mao Shan,Stewart Worrall
発行日 2024-01-23 01:11:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク