Achelous: A Fast Unified Water-surface Panoptic Perception Framework based on Fusion of Monocular Camera and 4D mmWave Radar

要約

さまざまなタスクに対する現在の認識モデルは、通常、無人水上車両 (USV) 上のモジュール形式で存在しますが、エッジ デバイス上での並列推論が非常に遅く、認識結果と USV の位置の間に非同期が発生し、自律ナビゲーションのエラー判定につながります。
無人地上車両 (UGV) と比較すると、USV に対する確固たる認識は比較的ゆっくりと発達します。
さらに、現在のマルチタスク認識モデルのほとんどはパラメーターが膨大で、推論が遅く、スケーラブルではありません。
これを目指して、単眼カメラと 4D ミリ波レーダーの融合に基づく、水面認識のための低コストで高速な統合パノプティック認識フレームワークである Achelous を提案します。
Achelous は、視覚ターゲットの検出とセグメンテーション、走行可能エリアのセグメンテーション、喫水線のセグメンテーション、レーダー点群のセグメンテーションという 5 つのタスクを同時に実行できます。
さらに、約 500 万未満のパラメータを備えた Achelous ファミリのモデルは、NVIDIA Jetson AGX Xavier で約 18 FPS を達成し、HybridNets よりも 11 FPS 速く、収集したデータセットの約 5 mAP$_ では YOLOX-Tiny および Segformer-B0 を上回っています。
{\text{50-95}}$ および 0.7 mIoU、特に悪天候、暗い環境、カメラの故障の状況下では。
私たちの知る限り、Achelous は、水面認識のための視覚レベルと点群レベルのタスクを組み合わせた最初の包括的なパノプティック認識フレームワークです。
インテリジェントな交通コミュニティの発展を促進するために、\url{https://github.com/GuanRunwei/Achelous} でコードをリリースします。

要約(オリジナル)

Current perception models for different tasks usually exist in modular forms on Unmanned Surface Vehicles (USVs), which infer extremely slowly in parallel on edge devices, causing the asynchrony between perception results and USV position, and leading to error decisions of autonomous navigation. Compared with Unmanned Ground Vehicles (UGVs), the robust perception of USVs develops relatively slowly. Moreover, most current multi-task perception models are huge in parameters, slow in inference and not scalable. Oriented on this, we propose Achelous, a low-cost and fast unified panoptic perception framework for water-surface perception based on the fusion of a monocular camera and 4D mmWave radar. Achelous can simultaneously perform five tasks, detection and segmentation of visual targets, drivable-area segmentation, waterline segmentation and radar point cloud segmentation. Besides, models in Achelous family, with less than around 5 million parameters, achieve about 18 FPS on an NVIDIA Jetson AGX Xavier, 11 FPS faster than HybridNets, and exceed YOLOX-Tiny and Segformer-B0 on our collected dataset about 5 mAP$_{\text{50-95}}$ and 0.7 mIoU, especially under situations of adverse weather, dark environments and camera failure. To our knowledge, Achelous is the first comprehensive panoptic perception framework combining vision-level and point-cloud-level tasks for water-surface perception. To promote the development of the intelligent transportation community, we release our codes in \url{https://github.com/GuanRunwei/Achelous}.

arxiv情報

著者 Runwei Guan,Shanliang Yao,Xiaohui Zhu,Ka Lok Man,Eng Gee Lim,Jeremy Smith,Yong Yue,Yutao Yue
発行日 2023-07-14 00:24:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.RO パーマリンク