OccRWKV: Rethinking Efficient 3D Semantic Occupancy Prediction with Linear Complexity

要約

3D セマンティック占有予測ネットワークは、3D シーンの幾何学的およびセマンティック構造を再構築する際に優れた機能を実証し、ロボット ナビゲーションや自動運転システムに重要な情報を提供します。
しかし、高密度のネットワーク構造設計によるオーバーヘッドが大きいため、既存のネットワークは精度と遅延のバランスをとるという課題に直面しています。
このペーパーでは、Receptance Weighted Key Value (RWKV) からインスピレーションを得た効率的なセマンティック占有ネットワークである OccRWKV を紹介します。
OccRWKV は、セマンティクス、占有予測、および機能融合を個別のブランチに分離し、それぞれに Sem-RWKV ブロックと Geo-RWKV ブロックを組み込んでいます。
これらのブロックは、長距離の依存関係をキャプチャするように設計されており、ネットワークがドメイン固有の表現 (つまり、セマンティクスとジオメトリ) を学習できるようになり、予測精度が向上します。
現実世界の 3D 占有のまばらな性質を利用して、特徴を鳥瞰図 (BEV) 空間に投影することで計算オーバーヘッドを削減し、効率的な特徴強化と融合のための BEV-RWKV ブロックを提案します。
これにより、パフォーマンスを損なうことなく 22.2 FPS でのリアルタイム推論が可能になります。
実験では、OccRWKV が SemanticKITTI データセットで最先端の手法を上回っており、最良のベースラインである Co-Occ よりも 20 倍高速でありながら 25.1 の mIoU を達成し、ロボットでのリアルタイム展開に適していることが実証されています。
自律航行の効率。
コードとビデオはプロジェクト ページ https://jmwang0117.github.io/OccRWKV/ で入手できます。

要約(オリジナル)

3D semantic occupancy prediction networks have demonstrated remarkable capabilities in reconstructing the geometric and semantic structure of 3D scenes, providing crucial information for robot navigation and autonomous driving systems. However, due to their large overhead from dense network structure designs, existing networks face challenges balancing accuracy and latency. In this paper, we introduce OccRWKV, an efficient semantic occupancy network inspired by Receptance Weighted Key Value (RWKV). OccRWKV separates semantics, occupancy prediction, and feature fusion into distinct branches, each incorporating Sem-RWKV and Geo-RWKV blocks. These blocks are designed to capture long-range dependencies, enabling the network to learn domain-specific representation (i.e., semantics and geometry), which enhances prediction accuracy. Leveraging the sparse nature of real-world 3D occupancy, we reduce computational overhead by projecting features into the bird’s-eye view (BEV) space and propose a BEV-RWKV block for efficient feature enhancement and fusion. This enables real-time inference at 22.2 FPS without compromising performance. Experiments demonstrate that OccRWKV outperforms the state-of-the-art methods on the SemanticKITTI dataset, achieving a mIoU of 25.1 while being 20 times faster than the best baseline, Co-Occ, making it suitable for real-time deployment on robots to enhance autonomous navigation efficiency. Code and video are available on our project page: https://jmwang0117.github.io/OccRWKV/.

arxiv情報

著者 Junming Wang,Wei Yin,Xiaoxiao Long,Xingyu Zhang,Zebin Xing,Xiaoyang Guo,Qian Zhang
発行日 2024-10-01 20:56:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク