BEV-IO: Enhancing Bird’s-Eye-View 3D Detection with Instance Occupancy

要約

3D 検出で鳥瞰図 (BEV) 表現を構築するための一般的なアプローチは、明示的に予測された深度分布に基づいて 2D 画像の特徴を視錐台空間に持ち上げることです。
ただし、深さの分布は、目に見えるオブジェクト表面の 3D ジオメトリを特徴付けることしかできませんが、その内部空間と全体的な幾何学的構造を捉えることができず、まばらで不満足な 3D 表現になります。
この問題を軽減するために、インスタンス占有情報を使用して BEV 表現を強化する新しい 3D 検出パラダイムである BEV-IO を紹介します。
私たちの手法の中核となるのは、新しく設計されたインスタンス占有予測 (IOP) モジュールで、錐台空間内の各インスタンスのポイントレベルの占有ステータスを推測することを目的としています。
表現の柔軟性を維持しながらトレーニングの効率を確保するために、明示的監視と暗黙的監視の両方を組み合わせてトレーニングされます。
予測された占有率を使用して、ジオメトリを認識した特徴伝達メカニズム (GFP) をさらに設計します。これは、錐台内の各光線に沿った占有分布に基づいて自己注意を実行し、インスタンス レベルの特徴の一貫性を強制することができます。
IOP モジュールを GFP メカニズムと統合することにより、当社の BEV-IO 検出器は、より包括的な BEV 表現で非常に有益な 3D シーン構造をレンダリングできます。
実験結果は、BEV-IO がパラメータ (0.2%) と計算オーバーヘッド (GFLOP で 0.24%) の増加を無視できる程度に抑えながら、最先端の手法を上回るパフォーマンスを発揮できることを示しています。

要約(オリジナル)

A popular approach for constructing bird’s-eye-view (BEV) representation in 3D detection is to lift 2D image features onto the viewing frustum space based on explicitly predicted depth distribution. However, depth distribution can only characterize the 3D geometry of visible object surfaces but fails to capture their internal space and overall geometric structure, leading to sparse and unsatisfactory 3D representations. To mitigate this issue, we present BEV-IO, a new 3D detection paradigm to enhance BEV representation with instance occupancy information. At the core of our method is the newly-designed instance occupancy prediction (IOP) module, which aims to infer point-level occupancy status for each instance in the frustum space. To ensure training efficiency while maintaining representational flexibility, it is trained using the combination of both explicit and implicit supervision. With the predicted occupancy, we further design a geometry-aware feature propagation mechanism (GFP), which performs self-attention based on occupancy distribution along each ray in frustum and is able to enforce instance-level feature consistency. By integrating the IOP module with GFP mechanism, our BEV-IO detector is able to render highly informative 3D scene structures with more comprehensive BEV representations. Experimental results demonstrate that BEV-IO can outperform state-of-the-art methods while only adding a negligible increase in parameters (0.2%) and computational overhead (0.24%in GFLOPs).

arxiv情報

著者 Zaibin Zhang,Lijun Wang,Yifan Wang,Huchuan Lu
発行日 2023-05-26 11:16:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク