要約
最近、サラウンドビュー画像からの 3D オブジェクト検出は、低い導入コストで顕著な進歩を遂げています。
しかし、ほとんどの研究は主に近距離の知覚範囲に焦点を当てており、長距離の検出はあまり検討されていません。
長距離をカバーするために既存の方法を直接拡張すると、膨大な計算コストや不安定な収束などの課題が生じます。
これらの制限に対処するために、この論文では、Far3D と呼ばれる新しいスパース クエリベースのフレームワークを提案します。
高品質の 2D オブジェクト事前分布を利用することで、3D グローバル クエリを補完する 3D 適応クエリを生成します。
長距離オブジェクトのさまざまなビューとスケールにわたる識別機能を効率的にキャプチャするために、遠近感を意識した集約モジュールを導入します。
さらに、クエリエラーの伝播に対処し、長距離タスクにおける収束の問題を軽減するために、範囲変調された 3D ノイズ除去アプローチを提案します。
重要なことに、Far3D は、150 メートルの広範囲をカバーし、いくつかの LiDAR ベースのアプローチを上回る、困難な Argoverse 2 データセット上で SoTA パフォーマンスを実証しています。
一方、Far3D は、nuScenes データセットに対する以前の方法と比較して優れたパフォーマンスを示します。
コードは間もなく利用可能になります。
要約(オリジナル)
Recently 3D object detection from surround-view images has made notable advancements with its low deployment cost. However, most works have primarily focused on close perception range while leaving long-range detection less explored. Expanding existing methods directly to cover long distances poses challenges such as heavy computation costs and unstable convergence. To address these limitations, this paper proposes a novel sparse query-based framework, dubbed Far3D. By utilizing high-quality 2D object priors, we generate 3D adaptive queries that complement the 3D global queries. To efficiently capture discriminative features across different views and scales for long-range objects, we introduce a perspective-aware aggregation module. Additionally, we propose a range-modulated 3D denoising approach to address query error propagation and mitigate convergence issues in long-range tasks. Significantly, Far3D demonstrates SoTA performance on the challenging Argoverse 2 dataset, covering a wide range of 150 meters, surpassing several LiDAR-based approaches. Meanwhile, Far3D exhibits superior performance compared to previous methods on the nuScenes dataset. The code will be available soon.
arxiv情報
著者 | Xiaohui Jiang,Shuailin Li,Yingfei Liu,Shihao Wang,Fan Jia,Tiancai Wang,Lijin Han,Xiangyu Zhang |
発行日 | 2023-08-18 15:19:17+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google