要約
最近の大規模モデリングのブレークスルーにより、セグメントAnything Model(SAM)は、さまざまな視覚アプリケーションで重要な可能性を示しています。
ただし、水中ドメインの専門知識がないため、SAMとそのバリエーションは、エンドツーエンドの水中インスタンスセグメンテーションタスクのパフォーマンスの制限に直面していますが、より高い計算要件は水中シナリオでのアプリケーションをさらに妨げます。
この課題に対処するために、10のカテゴリにピクセルレベルの注釈を備えた10,048画像を含む大規模な水中インスタンスセグメンテーションデータセットを提案します。
次に、水中インスタンスの自動で正確なセグメンテーション用に設計された効率的なモデルであるUWSAMを紹介します。
UWSAMは、効果的な視覚表現学習のために、マスクGATベースの水中知識蒸留(MG-UKD)メソッドを介して、SAM Vit-Huge画像エンコーダーからの知識をより小さなVITスモール画像エンコーダーに効率的に蒸留します。
さらに、UWSAM用のエンドツーエンドの水中プロンプトジェネレーター(EUPG)を設計します。これは、前景ポイントまたはボックスをプロンプトとして明示的に提供する代わりに、水中プロンプトを自動的に生成するため、効率的なセグメンテーションのために水中インスタンスを正確に見つけることができます。
包括的な実験結果は、私たちのモデルが効果的であり、複数の水中インスタンスデータセットで最先端の方法よりも大幅なパフォーマンスの改善を達成することを示しています。
データセットとコードは、https://github.com/liamlian0727/uiis10kで入手できます。
要約(オリジナル)
With recent breakthroughs in large-scale modeling, the Segment Anything Model (SAM) has demonstrated significant potential in a variety of visual applications. However, due to the lack of underwater domain expertise, SAM and its variants face performance limitations in end-to-end underwater instance segmentation tasks, while their higher computational requirements further hinder their application in underwater scenarios. To address this challenge, we propose a large-scale underwater instance segmentation dataset, UIIS10K, which includes 10,048 images with pixel-level annotations for 10 categories. Then, we introduce UWSAM, an efficient model designed for automatic and accurate segmentation of underwater instances. UWSAM efficiently distills knowledge from the SAM ViT-Huge image encoder into the smaller ViT-Small image encoder via the Mask GAT-based Underwater Knowledge Distillation (MG-UKD) method for effective visual representation learning. Furthermore, we design an End-to-end Underwater Prompt Generator (EUPG) for UWSAM, which automatically generates underwater prompts instead of explicitly providing foreground points or boxes as prompts, thus enabling the network to locate underwater instances accurately for efficient segmentation. Comprehensive experimental results show that our model is effective, achieving significant performance improvements over state-of-the-art methods on multiple underwater instance datasets. Datasets and codes are available at https://github.com/LiamLian0727/UIIS10K.
arxiv情報
著者 | Hua Li,Shijie Lian,Zhiyuan Li,Runmin Cong,Sam Kwong |
発行日 | 2025-05-21 14:36:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google