Achelous++: Power-Oriented Water-Surface Panoptic Perception Framework on Edge Devices based on Vision-Radar Fusion and Pruning of Heterogeneous Modalities

要約

都市の水面の堅牢な認識は、特に水路の安全性の観点から、水環境のインテリジェントな監視と無人船舶の自律航行および運航の基盤として機能します。
現在のマルチセンサー フュージョンおよびマルチタスク学習モデルはかなりの電力を消費し、推論に高出力 GPU に大きく依存していることは注目に値します。
これは炭素排出量の増加に寄与しており、環境保全と持続可能な低炭素都市環境の追求に重点が置かれていることに反する懸念である。
これらの懸念を考慮して、この論文では、有望な低コスト知覚方法と見なされている、視覚データと 4D レーダー データの融合による、低電力、軽量、マルチタスクのパノラマ知覚に焦点を当てます。
我々は、マルチタスクの水面パノプティック知覚モデルの開発と包括的な評価を容易にするAchelous++という名前のフレームワークを提案します。
Achelous++ は、物体検出、物体セマンティック セグメンテーション、走行可能領域セグメンテーション、喫水線セグメンテーション、レーダー点群セマンティック セグメンテーションを含む 5 つの認識タスクを高速かつ低消費電力で同時に実行できます。
さらに、開発者が低パフォーマンスのデバイス上でリアルタイム推論用のモデルをカスタマイズするという需要を満たすために、Heterogeneous-Aware SynFlow (HA-SynFlow) として知られる新しいマルチモーダル プルーニング戦略が提案されています。
さらに、Achelous++ は、Uniform や Erdos-Renyi-Kernel (ERK) など、さまざまな層ごとのスパース性を使用した初期化時のランダム プルーニングもサポートしています。
全体として、当社の Achelous++ フレームワークは WaterScenes ベンチマークで最先端のパフォーマンスを実現し、他のシングルタスク モデルやマルチタスク モデルと比較して精度と電力効率の両方で優れています。
コードは https://github.com/GuanRunwei/Achelous でリリースおよび保守されています。

要約(オリジナル)

Urban water-surface robust perception serves as the foundation for intelligent monitoring of aquatic environments and the autonomous navigation and operation of unmanned vessels, especially in the context of waterway safety. It is worth noting that current multi-sensor fusion and multi-task learning models consume substantial power and heavily rely on high-power GPUs for inference. This contributes to increased carbon emissions, a concern that runs counter to the prevailing emphasis on environmental preservation and the pursuit of sustainable, low-carbon urban environments. In light of these concerns, this paper concentrates on low-power, lightweight, multi-task panoptic perception through the fusion of visual and 4D radar data, which is seen as a promising low-cost perception method. We propose a framework named Achelous++ that facilitates the development and comprehensive evaluation of multi-task water-surface panoptic perception models. Achelous++ can simultaneously execute five perception tasks with high speed and low power consumption, including object detection, object semantic segmentation, drivable-area segmentation, waterline segmentation, and radar point cloud semantic segmentation. Furthermore, to meet the demand for developers to customize models for real-time inference on low-performance devices, a novel multi-modal pruning strategy known as Heterogeneous-Aware SynFlow (HA-SynFlow) is proposed. Besides, Achelous++ also supports random pruning at initialization with different layer-wise sparsity, such as Uniform and Erdos-Renyi-Kernel (ERK). Overall, our Achelous++ framework achieves state-of-the-art performance on the WaterScenes benchmark, excelling in both accuracy and power efficiency compared to other single-task and multi-task models. We release and maintain the code at https://github.com/GuanRunwei/Achelous.

arxiv情報

著者 Runwei Guan,Haocheng Zhao,Shanliang Yao,Ka Lok Man,Xiaohui Zhu,Limin Yu,Yong Yue,Jeremy Smith,Eng Gee Lim,Weiping Ding,Yutao Yue
発行日 2023-12-14 12:10:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CE, cs.CV, cs.RO パーマリンク