要約
最近、視覚的な接地とマルチセンサーの設定が、陸生自治駆動システムと無人の表面車両(USV)の認識システムに組み込まれていますが、マルチセンサーを使用した最新の学習ベースの視覚的接地モデルの高い複雑さは、そのようなモデルの展開を防ぎます
現実のUSVSについて。
この目的のために、私たちは水路具体化された知覚にnanomvgという名前の低電力マルチタスクモデルを設計し、カメラと4Dミリ波レーダーの両方を導き、自然言語を通して特定のオブジェクトを特定します。
NanomVGは、ボックスレベルとマスクレベルの両方の視覚的接地タスクを同時に実行できます。
他の視覚的接地モデルと比較して、NANOMVGはWaterVGデータセットで、特に過酷な環境で非常に競争力のあるパフォーマンスを達成し、長い持久力のために超低電力消費を誇っています。
要約(オリジナル)
Recently, visual grounding and multi-sensors setting have been incorporated into perception system for terrestrial autonomous driving systems and Unmanned Surface Vehicles (USVs), yet the high complexity of modern learning-based visual grounding model using multi-sensors prevents such model to be deployed on USVs in the real-life. To this end, we design a low-power multi-task model named NanoMVG for waterway embodied perception, guiding both camera and 4D millimeter-wave radar to locate specific object(s) through natural language. NanoMVG can perform both box-level and mask-level visual grounding tasks simultaneously. Compared to other visual grounding models, NanoMVG achieves highly competitive performance on the WaterVG dataset, particularly in harsh environments and boasts ultra-low power consumption for long endurance.
arxiv情報
著者 | Runwei Guan,Jianan Liu,Liye Jia,Haocheng Zhao,Shanliang Yao,Xiaohui Zhu,Ka Lok Man,Eng Gee Lim,Jeremy Smith,Yutao Yue |
発行日 | 2025-02-12 03:15:52+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google