A Convolutional Vision Transformer for Semantic Segmentation of Side-Scan Sonar Data

要約

さまざまな海洋底生生物の生息地の特徴を区別することは、石油リグの設置からケーブルのネットワークの敷設、海洋生態系に対する人間の影響の監視に至るまで、幅広い海底作業において重要です。
サイド スキャン ソナー (SSS) は、この点で広く使用されているイメージ センサーです。
海底から反射された音波の強度を記録することにより、高解像度の海底マップを生成します。
この作業では、これらの音響強度マップを活用して、さまざまな海底タイプのピクセル単位の分類を作成します。
エンコーダー デコーダー フレームワークでビジョン トランスフォーマー (ViT) から適応した新しいアーキテクチャを提案します。
さらに、そうすることで、ViTs の適用可能性は、より小さなデータセットで評価されます。
CNN のような誘導バイアスの欠如を克服し、それによって ViT を低データ体制でのアプリケーションにより助長するために、変換層内の多層パーセプトロン (MLP) ブロックを置き換える新しい特徴抽出モジュールと、抽出するための新しいモジュールを提案します。
マルチスケールパッチの埋め込み。
マルチスケールの特徴抽出をさらに促進するために、この設計を補完する軽量デコーダも提案されています。
変更されたアーキテクチャにより、最先端の結果を達成し、リアルタイムの計算要件も満たしています。
~\url{https://github.com/hayatrajani/s3seg-vit でコードを公開しています。

要約(オリジナル)

Distinguishing among different marine benthic habitat characteristics is of key importance in a wide set of seabed operations ranging from installations of oil rigs to laying networks of cables and monitoring the impact of humans on marine ecosystems. The Side-Scan Sonar (SSS) is a widely used imaging sensor in this regard. It produces high-resolution seafloor maps by logging the intensities of sound waves reflected back from the seafloor. In this work, we leverage these acoustic intensity maps to produce pixel-wise categorization of different seafloor types. We propose a novel architecture adapted from the Vision Transformer (ViT) in an encoder-decoder framework. Further, in doing so, the applicability of ViTs is evaluated on smaller datasets. To overcome the lack of CNN-like inductive biases, thereby making ViTs more conducive to applications in low data regimes, we propose a novel feature extraction module to replace the Multi-layer Perceptron (MLP) block within transformer layers and a novel module to extract multiscale patch embeddings. A lightweight decoder is also proposed to complement this design in order to further boost multiscale feature extraction. With the modified architecture, we achieve state-of-the-art results and also meet real-time computational requirements. We make our code available at ~\url{https://github.com/hayatrajani/s3seg-vit

arxiv情報

著者 Hayat Rajani,Nuno Gracias,Rafael Garcia
発行日 2023-02-24 02:44:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG, I.2.6 パーマリンク