LiDAR-based End-to-end Temporal Perception for Vehicle-Infrastructure Cooperation

要約

時間的知覚、つまり時間の経過とともに物体を検出して追跡する能力は、自動運転において動的環境の包括的な理解を維持するために重要です。
しかし、この作業は、単一車両の認識システムでは一般的である、遮蔽された物体や観察上の死角によって引き起こされる不完全な認識を含む、重大な課題によって妨げられています。
これらの問題に対処するために、車両インフラ連携 (VIC) のための LiDAR ベースのエンドツーエンド追跡フレームワークである LET-VIC を導入します。
LET-VIC は、Vehicle-to-Everything (V2X) 通信を活用し、車両センサーとインフラセンサーの両方からの空間データと時間データを融合することで時間的知覚を強化します。
まず、車両側とインフラ側の LiDAR データからの Bird’s Eye View (BEV) 機能を空間的に統合し、オクルージョンを軽減し死角を補う包括的なビューを作成します。
第 2 に、LET-VIC にはフレーム全体の時間的コンテキストが組み込まれており、モデルが履歴データを活用して追跡の安定性と精度を向上できるようになります。
堅牢性をさらに向上させるために、LET-VIC には、センサーの位置ずれに対処し、正確な機能の位置合わせを保証するための校正誤差補償 (CEC) モジュールが含まれています。
V2X-Seq-SPD データセットの実験では、LET-VIC がベースライン モデルを大幅に上回っており、通信遅延を考慮せずに mAP で少なくとも 13.7% の改善、AMOTA で少なくとも 13.1% の改善を達成していることが実証されています。
この研究は、車両とインフラの協力を通じて自動運転における時間認識を進歩させるための実用的な解決策と新しい研究の方向性を提供します。

要約(オリジナル)

Temporal perception, the ability to detect and track objects over time, is critical in autonomous driving for maintaining a comprehensive understanding of dynamic environments. However, this task is hindered by significant challenges, including incomplete perception caused by occluded objects and observational blind spots, which are common in single-vehicle perception systems. To address these issues, we introduce LET-VIC, a LiDAR-based End-to-End Tracking framework for Vehicle-Infrastructure Cooperation (VIC). LET-VIC leverages Vehicle-to-Everything (V2X) communication to enhance temporal perception by fusing spatial and temporal data from both vehicle and infrastructure sensors. First, it spatially integrates Bird’s Eye View (BEV) features from vehicle-side and infrastructure-side LiDAR data, creating a comprehensive view that mitigates occlusions and compensates for blind spots. Second, LET-VIC incorporates temporal context across frames, allowing the model to leverage historical data for enhanced tracking stability and accuracy. To further improve robustness, LET-VIC includes a Calibration Error Compensation (CEC) module to address sensor misalignments and ensure precise feature alignment. Experiments on the V2X-Seq-SPD dataset demonstrate that LET-VIC significantly outperforms baseline models, achieving at least a 13.7% improvement in mAP and a 13.1% improvement in AMOTA without considering communication delays. This work offers a practical solution and a new research direction for advancing temporal perception in autonomous driving through vehicle-infrastructure cooperation.

arxiv情報

著者 Zhenwei Yang,Jilei Mao,Wenxian Yang,Yibo Ai,Yu Kong,Haibao Yu,Weidong Zhang
発行日 2024-11-22 13:34:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, cs.LG, cs.RO パーマリンク