OcTr: Octree-based Transformer for 3D Object Detection

要約

LiDAR ベースの 3D オブジェクト検出の主な課題は、大規模な 3D シーンから十分な特徴をキャプチャすることです。
ロング シーケンス モデリング機能を備えたトランスフォーマーによる最近の取り組みにもかかわらず、不十分な受容野や粗粒度の全体的な相関関係に悩まされ、精度と効率の適切なバランスを取ることができませんでした。
この論文では、この問題に対処するために、OcTr という名前の Octree ベースのトランスフォーマーを提案します。
最初に、最上位レベルで自己注意を実行することにより、階層的特徴ピラミッドに動的なオクツリーを構築し、次にオクタントによって制限された下のレベルに再帰的に伝播します。
制御下の複雑さ。
さらに、前景認識を強化するために、セマンティック認識位置埋め込みと注意マスクで構成されるハイブリッド位置埋め込みを提案し、セマンティックおよびジオメトリの手がかりを完全に活用します。
Waymo Open Dataset と KITTI Dataset で広範な実験が行われ、OcTr は新たな最先端の結果に到達します。

要約(オリジナル)

A key challenge for LiDAR-based 3D object detection is to capture sufficient features from large scale 3D scenes especially for distant or/and occluded objects. Albeit recent efforts made by Transformers with the long sequence modeling capability, they fail to properly balance the accuracy and efficiency, suffering from inadequate receptive fields or coarse-grained holistic correlations. In this paper, we propose an Octree-based Transformer, named OcTr, to address this issue. It first constructs a dynamic octree on the hierarchical feature pyramid through conducting self-attention on the top level and then recursively propagates to the level below restricted by the octants, which captures rich global context in a coarse-to-fine manner while maintaining the computational complexity under control. Furthermore, for enhanced foreground perception, we propose a hybrid positional embedding, composed of the semantic-aware positional embedding and attention mask, to fully exploit semantic and geometry clues. Extensive experiments are conducted on the Waymo Open Dataset and KITTI Dataset, and OcTr reaches newly state-of-the-art results.

arxiv情報

著者 Chao Zhou,Yanan Zhang,Jiaxin Chen,Di Huang
発行日 2023-03-22 15:01:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク