Real-Time Multi-Modal Semantic Fusion on Unmanned Aerial Vehicles with Label Propagation for Cross-Domain Adaptation

要約

複数の補完的なセンサーを搭載した無人航空機 (UAV) は、高速な自律型またはリモート制御のセマンティック シーン分析 (災害調査など) に大きな可能性を秘めています。
ここでは、リアルタイムのセマンティック推論と複数のセンサー モダリティの融合のための UAV システムを提案します。
LiDAR スキャンと RGB 画像のセマンティック セグメンテーション、および RGB と熱画像のオブジェクト検出は、軽量の CNN アーキテクチャと組み込みの推論アクセラレータを使用して、UAV コンピューター上でオンラインで実行されます。
複数のセンサーモダリティからのセマンティック情報が3Dポイントクラウドと画像セグメンテーションマスクを増強すると同時に、アロセントリックセマンティックマップも生成する後期融合アプローチに従います。
セマンティック マップ上でのラベルの伝播により、クロス モダリティおよびクロス ドメイン監視によるセンサー固有の適応が可能になります。
私たちのシステムは、$\approx$ 9 Hz の拡張セマンティック イメージと点群を提供します。
都市環境および災害試験現場での実世界実験で統合システムを評価します。

要約(オリジナル)

Unmanned aerial vehicles (UAVs) equipped with multiple complementary sensors have tremendous potential for fast autonomous or remote-controlled semantic scene analysis, e.g., for disaster examination. Here, we propose a UAV system for real-time semantic inference and fusion of multiple sensor modalities. Semantic segmentation of LiDAR scans and RGB images, as well as object detection on RGB and thermal images, run online onboard the UAV computer using lightweight CNN architectures and embedded inference accelerators. We follow a late fusion approach where semantic information from multiple sensor modalities augments 3D point clouds and image segmentation masks while also generating an allocentric semantic map. Label propagation on the semantic map allows for sensor-specific adaptation with cross-modality and cross-domain supervision. Our system provides augmented semantic images and point clouds with $\approx$ 9 Hz. We evaluate the integrated system in real-world experiments in an urban environment and at a disaster test site.

arxiv情報

著者 Simon Bultmann,Jan Quenzel,Sven Behnke
発行日 2022-10-18 10:32:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク