WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

要約

人間の意図に基づく水路の認識は、水環境における無人水上車両 (USV) の自律航行と運用にとって非常に重要です。
この論文では、視覚的グラウンディングからインスピレーションを得て、人間の意図のプロンプトに基づいた USV ベースの水路認識用に設計された初の視覚的グラウンディング データセットである WaterVG を紹介します。
WaterVG には、複数のターゲットを説明するプロンプトが含​​まれており、バウンディング ボックスやマスクなどのインスタンス レベルでの注釈が付けられます。
特に、WaterVG には 34,950 個の参照ターゲットを含む 11,568 個のサンプルが含まれており、単眼カメラとミリ波 (mmWave) レーダーで捕捉された視覚特性とレーダー特性の両方を統合し、より細かい粒度のテキスト プロンプトを可能にします。
さらに、新しいマルチモーダル視覚グラウンディング モデル Potamoi を提案します。これは、適応レーダー重み付け (
ARW) およびマルチヘッド スリム クロス アテンション (MHSCA)。
具体的には、MHSCA は、パラメータ数と FLOP が非常に少ない低コストで効率的な融合モジュールであり、2 つのセンサーによってキャプチャされたシナリオのコンテキスト情報を言語的特徴とエレガントに調整して融合します。これにより、参照表現の理解とセグメンテーションのタスクに効果的に対処できます。
きめ細かいプロンプト。
WaterVG では包括的な実験と評価が行われ、当社の Potamoi は同等の製品と比較した最先端のパフォーマンスをアーカイブしています。

要約(オリジナル)

The perception of waterways based on human intent holds significant importance for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, in this paper, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human intention prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,950 referred targets, which integrates both visual and radar characteristics captured by monocular camera and millimeter-wave (mmWave) radar, enabling a finer granularity of text prompts. Furthermore, we propose a novel multi-modal visual grounding model, Potamoi, which is a multi-modal and multi-task model based on the one-stage paradigm with a designed Phased Heterogeneous Modality Fusion (PHMF) structure, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). In specific, MHSCA is a low-cost and efficient fusion module with a remarkably small parameter count and FLOPs, elegantly aligning and fusing scenario context information captured by two sensors with linguistic features, which can effectively address tasks of referring expression comprehension and segmentation based on fine-grained prompts. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.

arxiv情報

著者 Runwei Guan,Liye Jia,Fengyufan Yang,Shanliang Yao,Erick Purwanto,Xiaohui Zhu,Eng Gee Lim,Jeremy Smith,Ka Lok Man,Yutao Yue
発行日 2024-03-19 12:45:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO パーマリンク