Cognitive TransFuser: Semantics-guided Transformer-based Sensor Fusion for Improved Waypoint Prediction

要約

インテリジェントな自動運転エージェントのためのセンサー フュージョン アプローチは、入力センサーから取得された視覚的なグローバル コンテキストを考慮して、運転シーンを理解するための鍵となります。
具体的には、ローカルウェイポイント予測タスクの場合、単一モダリティネットワークは入力センサーの感度への強い依存性によって依然として制限されているため、最近の研究では実際に機能レベルで複数のセンサーを融合して使用することを促進しています。
複数のデータモダリティが相互のコンテキスト交換を促進することはよく知られていますが、実際の運転シナリオに展開する際には、最小限の計算でリアルタイムにグローバルな 3D シーンを理解する必要があるため、実際に使用できるセンサーの数が限られている場合、トレーニング戦略がより重要になります。

この観点から、我々は、補助タスクの特徴を融合し、模倣学習に基づくウェイポイント予測に補助ヘッドを使用することによって、対象のターゲットタスク(信号機認識やセマンティックセグメンテーションなど)と高度に相関する慎重に選択された補助タスクを活用します。
当社の RGB-LIDAR ベースのマルチタスク機能融合ネットワーク (Cognitive TransFuser という造語) は、CARLA シミュレータでのより安全でより完全な道路ナビゲーションを実現するために、ベースライン ネットワークを大幅に強化し、上回っています。
広範な実験を通じて、提案されたネットワークを Town05 Short および Town05 Long ベンチマークで検証し、最大 44.2 FPS のリアルタイム推論時間を達成しました。

要約(オリジナル)

Sensor fusion approaches for intelligent self-driving agents remain key to driving scene understanding given visual global contexts acquired from input sensors. Specifically, for the local waypoint prediction task, single-modality networks are still limited by strong dependency on the sensitivity of the input sensor, and thus recent works therefore promote the use of multiple sensors in fusion in feature level in practice. While it is well known that multiple data modalities encourage mutual contextual exchange, it requires global 3D scene understanding in real-time with minimal computation upon deployment to practical driving scenarios, thereby placing greater significance on the training strategy given a limited number of practically usable sensors. In this light, we exploit carefully selected auxiliary tasks that are highly correlated with the target task of interest (e.g., traffic light recognition and semantic segmentation) by fusing auxiliary task features and also using auxiliary heads for waypoint prediction based on imitation learning. Our RGB-LIDAR-based multi-task feature fusion network, coined Cognitive TransFuser, augments and exceeds the baseline network by a significant margin for safer and more complete road navigation in the CARLA simulator. We validate the proposed network on the Town05 Short and Town05 Long Benchmark through extensive experiments, achieving up to 44.2 FPS real-time inference time.

arxiv情報

著者 Hwan-Soo Choi,Jongoh Jeong,Young Hoo Cho,Kuk-Jin Yoon,Jong-Hwan Kim
発行日 2024-01-31 10:36:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.RO パーマリンク