要約
本論文では、水中洞窟内でのAUVナビゲーションのための、セマンティックセグメンテーションとシーン構文解析のための最初の視覚学習パイプラインであるCaveSegを紹介する。我々は、水中洞窟シーンのセマンティックセグメンテーションのための包括的なデータセットを準備することにより、注釈付きトレーニングデータが少ないという問題に対処する。このデータセットには、重要なナビゲーションマーカー(例:洞窟ライン、矢印)、障害物(例:地上平野、頭上レイヤー)、スキューバダイバー、およびサーボ用のオープンエリアのピクセル注釈が含まれている。アメリカ、メキシコ、スペインの洞窟システムに関する包括的なベンチマーク分析を通じて、水中洞窟環境の高速な意味的シーン解析のために、CaveSegに基づいてロバストなディープビジュアルモデルを開発できることを実証する。特に、計算が軽く、リアルタイムに近い実行が可能で、最先端の性能を達成する、新しい変換器ベースのモデルを定式化する。最後に、水中洞窟内でのAUVによるビジュアルサーボのためのセマンティックセグメンテーションの設計選択とその意味を探る。提案されたモデルとベンチマークデータセットは、自律的な水中洞窟探査とマッピングにおける将来の研究に有望な機会を開くものである。
要約(オリジナル)
In this paper, we present CaveSeg – the first visual learning pipeline for semantic segmentation and scene parsing for AUV navigation inside underwater caves. We address the problem of scarce annotated training data by preparing a comprehensive dataset for semantic segmentation of underwater cave scenes. It contains pixel annotations for important navigation markers (e.g. caveline, arrows), obstacles (e.g. ground plain and overhead layers), scuba divers, and open areas for servoing. Through comprehensive benchmark analyses on cave systems in USA, Mexico, and Spain locations, we demonstrate that robust deep visual models can be developed based on CaveSeg for fast semantic scene parsing of underwater cave environments. In particular, we formulate a novel transformer-based model that is computationally light and offers near real-time execution in addition to achieving state-of-the-art performance. Finally, we explore the design choices and implications of semantic segmentation for visual servoing by AUVs inside underwater caves. The proposed model and benchmark dataset open up promising opportunities for future research in autonomous underwater cave exploration and mapping.
arxiv情報
著者 | A. Abdullah,T. Barua,R. Tibbetts,Z. Chen,M. J. Islam,I. Rekleitis |
発行日 | 2024-03-01 17:43:02+00:00 |
arxivサイト | arxiv_id(pdf) |