On Vision Transformers for Classification Tasks in Side-Scan Sonar Imagery

要約

サイドスキャン ソナー (SSS) 画像は、複雑で変化に富んだ水中環境のため、海底の人工物の分類に独特の課題をもたらします。
これまで、専門家は手動で作成した特徴を備えた従来の機械学習技術に依存して、SSS 画像を手動で解釈してきました。
畳み込みニューラル ネットワーク (CNN) は、この領域における自動分類を大幅に進歩させましたが、誤検知率が増加する可能性がある岩石や波紋の砂底など、多様な海底テクスチャを扱う場合には不十分なことがよくあります。
最近、ビジョン トランスフォーマー (ViT) は、セルフ アテンション メカニズムを利用して画像パッチ内のグローバル情報をキャプチャし、空間階層の処理における柔軟性を高めることで、これらの制限に対処できる可能性を示しています。
このペーパーでは、SSS 画像のバイナリ分類タスクに関して、ResNet や ConvNext などの一般的に使用される CNN アーキテクチャと ViT モデルのパフォーマンスを厳密に比較します。
このデータセットには多様な地理的海底タイプが含まれており、人工物の有無のバランスが取れています。
ViT ベースのモデルは、より多くの計算リソースを犠牲にしますが、f1 スコア、精度、再現率、精度メトリクス全体で優れた分類パフォーマンスを示します。
CNN は帰納的バイアスにより優れた計算効率を示し、水中探査機のようなリソースに制約のある環境での展開に適しています。
将来の研究の方向性には、困難な水中環境でのパフォーマンスをさらに向上させるための、ViT の自己教師あり学習とマルチモーダル融合の探索が含まれます。

要約(オリジナル)

Side-scan sonar (SSS) imagery presents unique challenges in the classification of man-made objects on the seafloor due to the complex and varied underwater environments. Historically, experts have manually interpreted SSS images, relying on conventional machine learning techniques with hand-crafted features. While Convolutional Neural Networks (CNNs) significantly advanced automated classification in this domain, they often fall short when dealing with diverse seafloor textures, such as rocky or ripple sand bottoms, where false positive rates may increase. Recently, Vision Transformers (ViTs) have shown potential in addressing these limitations by utilizing a self-attention mechanism to capture global information in image patches, offering more flexibility in processing spatial hierarchies. This paper rigorously compares the performance of ViT models alongside commonly used CNN architectures, such as ResNet and ConvNext, for binary classification tasks in SSS imagery. The dataset encompasses diverse geographical seafloor types and is balanced between the presence and absence of man-made objects. ViT-based models exhibit superior classification performance across f1-score, precision, recall, and accuracy metrics, although at the cost of greater computational resources. CNNs, with their inductive biases, demonstrate better computational efficiency, making them suitable for deployment in resource-constrained environments like underwater vehicles. Future research directions include exploring self-supervised learning for ViTs and multi-modal fusion to further enhance performance in challenging underwater environments.

arxiv情報

著者 BW Sheffield,Jeffrey Ellen,Ben Whitmore
発行日 2024-09-18 14:36:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク