WaterVG: Waterway Visual Grounding based on Text-Guided Vision and mmWave Radar

要約

人間の意図に基づく水路の認識は、水環境での自律航行および無人水上車両 (USV) の運用にとって重要です。
視覚的グラウンディングからインスピレーションを得て、人間のプロンプトに基づく USV ベースの水路認識用に設計された初の視覚的グラウンディング データセットである WaterVG を紹介します。
WaterVG には、複数のターゲットを説明するプロンプトが含​​まれており、バウンディング ボックスやマスクなどのインスタンス レベルでの注釈が付けられます。
特に、WaterVG には 34,987 個の参照ターゲットを含む 11,568 個のサンプルが含まれており、そのプロンプトには視覚特性とレーダー特性の両方が統合されています。
テキスト ガイドの 2 つのセンサーのパターンにより、より詳細な粒度のテキスト プロンプトに、参照されたターゲットの視覚機能とレーダー機能が装備されます。
さらに、低電力視覚グラウンディング モデル Potamoi を提案します。これは、適応レーダー重み付け (ARW) とマルチヘッド スリム クロス アテンション (
MHSCA)。
まさに、ARW は必要なレーダー機能を抽出して視覚と融合させ、迅速な位置合わせを実現します。
MHSCA は、パラメータ数と FLOP が非常に少ない効率的な融合モジュールであり、2 つのセンサーによってキャプチャされたシナリオ コンテキストと言語機能をエレガントに融合し、視覚的なグラウンディング タスクを表現力豊かに実行します。
WaterVG では包括的な実験と評価が行われ、当社の Potamoi は同等の製品と比較した最先端のパフォーマンスをアーカイブしています。

要約(オリジナル)

The perception of waterways based on human intent is significant for autonomous navigation and operations of Unmanned Surface Vehicles (USVs) in water environments. Inspired by visual grounding, we introduce WaterVG, the first visual grounding dataset designed for USV-based waterway perception based on human prompts. WaterVG encompasses prompts describing multiple targets, with annotations at the instance level including bounding boxes and masks. Notably, WaterVG includes 11,568 samples with 34,987 referred targets, whose prompts integrates both visual and radar characteristics. The pattern of text-guided two sensors equips a finer granularity of text prompts with visual and radar features of referred targets. Moreover, we propose a low-power visual grounding model, Potamoi, which is a multi-task model with a well-designed Phased Heterogeneous Modality Fusion (PHMF) mode, including Adaptive Radar Weighting (ARW) and Multi-Head Slim Cross Attention (MHSCA). Exactly, ARW extracts required radar features to fuse with vision for prompt alignment. MHSCA is an efficient fusion module with a remarkably small parameter count and FLOPs, elegantly fusing scenario context captured by two sensors with linguistic features, which performs expressively on visual grounding tasks. Comprehensive experiments and evaluations have been conducted on WaterVG, where our Potamoi archives state-of-the-art performances compared with counterparts.

arxiv情報

著者 Runwei Guan,Liye Jia,Fengyufan Yang,Shanliang Yao,Erick Purwanto,Xiaohui Zhu,Eng Gee Lim,Jeremy Smith,Ka Lok Man,Xuming Hu,Yutao Yue
発行日 2024-04-05 02:34:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.MM, cs.RO パーマリンク