V2X-AHD:Vehicle-to-Everything Cooperation Perception via Asymmetric Heterogenous Distillation Network

要約

物体検出はインテリジェント交通システムの中心的な問題であり、単一車両の LIDAR ベースの 3D 検出における最近の進歩は、インテリジェント エージェントが意思決定や計画を立てるための正確な位置情報を提供できることを示しています。
単一車両の知覚と比較して、多視点の車両と道路の協調知覚には、死角の排除や知覚範囲の拡大などの基本的な利点があり、研究のホットスポットとなっています。
しかし、現在の協力に対する認識は、単一ビューのアウトラインの欠如によって引き起こされる根本的な問題を無視しながら、融合の複雑性を改善することに重点を置いています。
我々は、特に車両の形状を予測するための識別能力を強化するために、多視点の車両と道路の協調知覚システムである車両対すべての協調知覚(V2X-AHD)を提案します。
まず、輪郭認識の精度を向上させるために、マルチビューの教師の特徴をシングルビューの生徒の特徴に転送する、さまざまなトレーニング データを供給した非対称異種蒸留ネットワークを提案します。
点群データはまばらですが、パラメータの数を減らし、特徴抽出機能を改善および強化するために、予備の畳み込みベースのプラグイン特徴抽出バックボーンである Spara Pillar を提案します。
さらに、マルチヘッド セルフ アテンション (MSA) を活用してシングルビュー機能を融合し、軽量設計により融合機能をスムーズに表現できます。
私たちのアルゴリズムを大規模なオープン データセット V2Xset に適用した結果は、私たちの方法が最先端の結果を達成することを示しています。
この研究によれば、V2X-AHD は 3D オブジェクト検出の精度を効果的に向上させ、ネットワーク パラメータの数を減らすことができ、協調知覚のベンチマークとして機能します。
この記事のコードは https://github.com/feeling0414-lab/V2X-AHD で入手できます。

要約(オリジナル)

Object detection is the central issue of intelligent traffic systems, and recent advancements in single-vehicle lidar-based 3D detection indicate that it can provide accurate position information for intelligent agents to make decisions and plan. Compared with single-vehicle perception, multi-view vehicle-road cooperation perception has fundamental advantages, such as the elimination of blind spots and a broader range of perception, and has become a research hotspot. However, the current perception of cooperation focuses on improving the complexity of fusion while ignoring the fundamental problems caused by the absence of single-view outlines. We propose a multi-view vehicle-road cooperation perception system, vehicle-to-everything cooperative perception (V2X-AHD), in order to enhance the identification capability, particularly for predicting the vehicle’s shape. At first, we propose an asymmetric heterogeneous distillation network fed with different training data to improve the accuracy of contour recognition, with multi-view teacher features transferring to single-view student features. While the point cloud data are sparse, we propose Spara Pillar, a spare convolutional-based plug-in feature extraction backbone, to reduce the number of parameters and improve and enhance feature extraction capabilities. Moreover, we leverage the multi-head self-attention (MSA) to fuse the single-view feature, and the lightweight design makes the fusion feature a smooth expression. The results of applying our algorithm to the massive open dataset V2Xset demonstrate that our method achieves the state-of-the-art result. The V2X-AHD can effectively improve the accuracy of 3D object detection and reduce the number of network parameters, according to this study, which serves as a benchmark for cooperative perception. The code for this article is available at https://github.com/feeling0414-lab/V2X-AHD.

arxiv情報

著者 Caizhen He,Hai Wang,Long Chen,Tong Luo,Yingfeng Cai
発行日 2023-10-10 13:12:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.RO パーマリンク