A Multi-Modal Approach Based on Large Vision Model for Close-Range Underwater Target Localization

要約

水中ターゲットの位置特定では、リアルタイムの感覚測定を使用して水中の対象物の位置を推定し、水中ロボットに重要なフィードバック情報を提供します。
音響センシングは水中ロボットで最も認知された方法であり、おそらく長距離の水中ターゲットの位置を特定するための唯一の効果的なアプローチですが、このようなセンシング方式は一般に解像度が低く、コストが高く、エネルギー消費が高いため、適用すると平凡なパフォーマンスにつながります。
近距離の水中ターゲットの位置特定に使用します。
一方、光学センシングは、高解像度と低コストという利点により、水中ロボット工学コミュニティでますます注目を集めており、特に近距離の水中ターゲットの位置特定において大きな可能性を秘めています。
ただし、水中光学センシングに関する既存の研究のほとんどは、利用可能なトレーニング データが限られているため、特定の種類のターゲットに限定されています。
さらに、これらの研究は通常、推定アルゴリズムの設計に焦点を当てており、センシング性能に対する照明条件の影響を無視しているため、現実世界でのより広範な応用が妨げられています。
前述の問題に対処するために、本論文では、光学的および音響的感覚測定の両方を統合して、近距離の水中ターゲットの 3D 位置を推定する新しいターゲット位置特定方法を提案します。
提案されているマルチモーダル センシング アプローチを実験的に調査するために、制御可能な照明条件を備えたテスト プラットフォームが設​​計および開発されています。
光学イメージング測定を処理するために大規模な視覚モデルが適用されるため、トレーニング データ取得の必要性がなくなり、潜在的なアプリケーションの範囲が大幅に拡大します。
広範な実験が実施され、その結果により、提案された水中ターゲット位置特定方法の有効性が検証されました。

要約(オリジナル)

Underwater target localization uses real-time sensory measurements to estimate the position of underwater objects of interest, providing critical feedback information for underwater robots. While acoustic sensing is the most acknowledged method in underwater robots and possibly the only effective approach for long-range underwater target localization, such a sensing modality generally suffers from low resolution, high cost and high energy consumption, thus leading to a mediocre performance when applied to close-range underwater target localization. On the other hand, optical sensing has attracted increasing attention in the underwater robotics community for its advantages of high resolution and low cost, holding a great potential particularly in close-range underwater target localization. However, most existing studies in underwater optical sensing are restricted to specific types of targets due to the limited training data available. In addition, these studies typically focus on the design of estimation algorithms and ignore the influence of illumination conditions on the sensing performance, thus hindering wider applications in the real world. To address the aforementioned issues, this paper proposes a novel target localization method that assimilates both optical and acoustic sensory measurements to estimate the 3D positions of close-range underwater targets. A test platform with controllable illumination conditions is designed and developed to experimentally investigate the proposed multi-modal sensing approach. A large vision model is applied to process the optical imaging measurements, eliminating the requirement for training data acquisition, thus significantly expanding the scope of potential applications. Extensive experiments are conducted, the results of which validate the effectiveness of the proposed underwater target localization method.

arxiv情報

著者 Mingyang Yang,Zeyu Sha,Feitian Zhang
発行日 2024-01-09 14:58:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.RO パーマリンク