要約
タイトル:PVT-SSD:ポイント-ボクセル・トランスフォーマーを使用したシングルステージ3D物体検出器
要約:
– 最近のトランスフォーマーベースの3D物体検出器は、ポイントまたはボクセルベースの表現からポイントクラウド特徴を学習します。
– 一方、前者は時間を要するサンプリングを必要とし、後者は量子化エラーを導入します。
– この論文では、これら2つの表現の利点を活用するPoint-Voxel Transformerを提案し、シングルステージ3D検出器(PVT-SSD)を構築しています。
– 具体的には、効率的な特徴エンコーディングのためにボクセルベースの疎畳み込みを使用し、ポイントから正確な位置を取得しつつ、安価にボクセルから長距離のコンテキストを取得するPoint-Voxel Transformer(PVT)モジュールを提案しています。
– 異なる表現を関連付ける鍵となるのは、入力に依存するクエリ初期化モジュールであり、参照点とコンテンツクエリを効率的に生成できます。
– さらに、PVTは、参照点の周りの長距離の文脈情報とローカルジオメトリ情報をコンテンツクエリに自動的に融合します。
– 参照点の隣接するポイントを素早く見つけるために、Virtual Range Imageモジュールを設計し、ネイティブレンジイメージをマルチセンサー・マルチフレームに拡張しました。
– 自律走行ベンチマークでの実験は、提案手法の有効性と効率性を検証しています。 コードはhttps://github.com/Nightmare-n/PVT-SSDで利用できます。
要約(オリジナル)
Recent Transformer-based 3D object detectors learn point cloud features either from point- or voxel-based representations. However, the former requires time-consuming sampling while the latter introduces quantization errors. In this paper, we present a novel Point-Voxel Transformer for single-stage 3D detection (PVT-SSD) that takes advantage of these two representations. Specifically, we first use voxel-based sparse convolutions for efficient feature encoding. Then, we propose a Point-Voxel Transformer (PVT) module that obtains long-range contexts in a cheap manner from voxels while attaining accurate positions from points. The key to associating the two different representations is our introduced input-dependent Query Initialization module, which could efficiently generate reference points and content queries. Then, PVT adaptively fuses long-range contextual and local geometric information around reference points into content queries. Further, to quickly find the neighboring points of reference points, we design the Virtual Range Image module, which generalizes the native range image to multi-sensor and multi-frame. The experiments on several autonomous driving benchmarks verify the effectiveness and efficiency of the proposed method. Code will be available at https://github.com/Nightmare-n/PVT-SSD.
arxiv情報
著者 | Honghui Yang,Wenxiao Wang,Minghao Chen,Binbin Lin,Tong He,Hua Chen,Xiaofei He,Wanli Ouyang |
発行日 | 2023-05-11 07:37:15+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI