Multi-Modal Multi-Task (3MT) Road Segmentation

要約

マルチモーダル システムは、シーンのさまざまな側面を認識するため、道路検出において単一モダリティのシステムよりも信頼性の高い結果を生み出す能力を備えています。
私たちは、多くの SOTA 作業で一般的に行われている、表面法線や密な深さの予測など、高い前処理コストを必要とするアーキテクチャを利用するのではなく、生のセンサー入力を使用することに重点を置いています。
生のセンサー入力を使用することで、前処理とモデルの計算コストの両方を最小限に抑える低コスト モデルの利用を目指します。
この研究では、マルチタスク学習アーキテクチャ内で複数のセンサーからのデータを統合することにより、道路セグメンテーションのための費用対効果が高く、高精度のソリューションを提示します。RGB および LiDAR 深度画像がネットワークの入力を構成する Afusion アーキテクチャが提案されています。
この研究のもう 1 つの貢献は、IMU/GNSS (慣性測定ユニット/全地球航法衛星システム) 慣性航法システムを使用することです。このシステムのデータは同期して収集され、LiDAR カメラで校正され、集約された高密度 LiDAR 深度画像を計算します。
KITTI データセットでの実験により、提案された方法が高速で高性能のソリューションを提供することが実証されています。
また、生の LiDAR データが利用できない都市景観でのメソッドのパフォーマンスも示しました。
フル解像度画像とハーフ解像度画像の両方で得られたセグメンテーション結果は、既存の方法と競合します。
したがって、私たちの方法は生の LiDAR データのみに依存しているわけではないと結論付けます。
むしろ、さまざまなセンサーモダリティで使用できます。
すべての実験で得られた推論時間は、リアルタイム実験にとって非常に有望です。

要約(オリジナル)

Multi-modal systems have the capacity of producing more reliable results than systems with a single modality in road detection due to perceiving different aspects of the scene. We focus on using raw sensor inputs instead of, as it is typically done in many SOTA works, leveraging architectures that require high pre-processing costs such as surface normals or dense depth predictions. By using raw sensor inputs, we aim to utilize a low-cost model thatminimizes both the pre-processing andmodel computation costs. This study presents a cost-effective and highly accurate solution for road segmentation by integrating data from multiple sensorswithin a multi-task learning architecture.Afusion architecture is proposed in which RGB and LiDAR depth images constitute the inputs of the network. Another contribution of this study is to use IMU/GNSS (inertial measurement unit/global navigation satellite system) inertial navigation system whose data is collected synchronously and calibrated with a LiDAR-camera to compute aggregated dense LiDAR depth images. It has been demonstrated by experiments on the KITTI dataset that the proposed method offers fast and high-performance solutions. We have also shown the performance of our method on Cityscapes where raw LiDAR data is not available. The segmentation results obtained for both full and half resolution images are competitive with existing methods. Therefore, we conclude that our method is not dependent only on raw LiDAR data; rather, it can be used with different sensor modalities. The inference times obtained in all experiments are very promising for real-time experiments.

arxiv情報

著者 Erkan Milli,Özgür Erkent,Asım Egemen Yılmaz
発行日 2023-08-23 08:15:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク