要約
協同知覚は、複数のエージェントにわたるデータ共有と融合のための車両(V2X)通信を活用することにより、単一エージェントシステムの認識制限を克服するための最適なソリューションを提供します。
ただし、既存のアプローチのほとんどは、単一モダリティデータ交換に焦点を当てており、エージェント間の均質および不均一な融合の両方の可能性を制限しています。
これは、エージェントごとにマルチモダリティデータを利用する機会を見落とし、システムのパフォーマンスを制限します。
自動車業界では、メーカーは多様なセンサー構成を採用し、エージェント間のセンサーモダリティの不均一な組み合わせをもたらします。
最適なパフォーマンスのために、あらゆる可能なデータソースの可能性を活用するために、堅牢なライダーとカメラのクロスモダリティ融合モジュール、Radian-Glue-Attention(RG-ATTN)を設計します。
変換マトリックスによる便利な座標変換と統一されたサンプリング/反転メカニズムにより、エージェントクロスモダリティ融合シナリオ。
また、協調的な認識を実施するために、ペイントツーパズル(PTP)と共同スケッチングコーカラー(COS-COCO)という2つの異なるアーキテクチャを提案します。
PTPは、最大の精密パフォーマンスを目的とし、クロスエージェント融合を単一のインスタンスに制限することにより、より小さなデータパケットサイズを達成しますが、すべての参加者にLIDARを装備する必要があります。
対照的に、COS-CoCoは、任意の構成LIDARのみ、カメラのみ、またはLidar-Cameraとエージェントをサポートし、より一般化能力を示します。
私たちのアプローチは、実際の協同組合の認識データセットとシミュレートされた両方の協同組合の両方で、最先端の(SOTA)パフォーマンスを実現します。
このコードは、2025年初頭にGitHubでリリースされます。
要約(オリジナル)
Cooperative perception offers an optimal solution to overcome the perception limitations of single-agent systems by leveraging Vehicle-to-Everything (V2X) communication for data sharing and fusion across multiple agents. However, most existing approaches focus on single-modality data exchange, limiting the potential of both homogeneous and heterogeneous fusion across agents. This overlooks the opportunity to utilize multi-modality data per agent, restricting the system’s performance. In the automotive industry, manufacturers adopt diverse sensor configurations, resulting in heterogeneous combinations of sensor modalities across agents. To harness the potential of every possible data source for optimal performance, we design a robust LiDAR and camera cross-modality fusion module, Radian-Glue-Attention (RG-Attn), applicable to both intra-agent cross-modality fusion and inter-agent cross-modality fusion scenarios, owing to the convenient coordinate conversion by transformation matrix and the unified sampling/inversion mechanism. We also propose two different architectures, named Paint-To-Puzzle (PTP) and Co-Sketching-Co-Coloring (CoS-CoCo), for conducting cooperative perception. PTP aims for maximum precision performance and achieves smaller data packet size by limiting cross-agent fusion to a single instance, but requiring all participants to be equipped with LiDAR. In contrast, CoS-CoCo supports agents with any configuration-LiDAR-only, camera-only, or LiDAR-camera-both, presenting more generalization ability. Our approach achieves state-of-the-art (SOTA) performance on both real and simulated cooperative perception datasets. The code will be released at GitHub in early 2025.
arxiv情報
著者 | Lantao Li,Kang Yang,Wenqi Zhang,Xiaoxue Wang,Chen Sun |
発行日 | 2025-01-28 09:08:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google