Performance Evaluation of Segment Anything Model with Variational Prompting for Application to Non-Visible Spectrum Imagery

要約

Segment Anything Model (SAM) は、インスタンス セグメンテーションを実行するように設計されたディープ ニューラル ネットワークの基本モデルであり、ゼロショット セグメンテーション機能により非常に人気を得ています。
SAM は、テキスト、境界ボックス、ポイント、マスクなどのさまざまな入力プロンプトに基づいてマスクを生成することによって動作し、データセット固有の不足によってもたらされる制約を克服するための新しい方法論を導入します。
SAM は、約 1,100 万枚の画像で構成される大規模なデータセットでトレーニングされていますが、その大部分は自然写真画像で構成されており、他のモダリティからの非常に限られた画像のみが含まれています。
深層学習の進歩によって推進された可視赤外線監視および X 線セキュリティスクリーニング画像技術の急速な進歩により、高精度で物体を検出、分類、セグメント化する能力が大幅に向上しましたが、SAM がゼロかどうかは明らかではありません。
ショット機能はそのようなモダリティに転送できます。
この研究では、X 線/赤外線モダリティで対象オブジェクトをセグメント化する際の SAM 機能を評価します。
私たちのアプローチでは、バウンディング ボックス、重心、ランダム ポイントという 3 つの異なるプロンプトを使用して事前トレーニングされた SAM を再利用します。
選択したデータセットのパフォーマンスを示すために、定量的/定性的な結果を提示します。
私たちの結果は、SAM はボックス プロンプトが与えられた場合に X 線モダリティでオブジェクトをセグメント化できるが、そのパフォーマンスはポイント プロンプトでは異なることを示しています。
具体的には、SAM は、ペットボトルなどの細長い物体や有機材料のセグメント化にはあまり効果がありません。
このモダリティの低コントラストの性質を考慮すると、赤外線オブジェクトをポイント プロンプトでセグメント化することも困難であることがわかりました。
この研究は、SAM がボックス プロンプトでは優れたゼロショット機能を実証する一方で、ポイント プロンプトではそのパフォーマンスが中程度から劣悪な範囲にあることを示しており、X 線/赤外線での使用を検討する場合には SAM のクロスモーダル一般化について特別な考慮が必要であることを示しています。
イメージ。

要約(オリジナル)

The Segment Anything Model (SAM) is a deep neural network foundational model designed to perform instance segmentation which has gained significant popularity given its zero-shot segmentation ability. SAM operates by generating masks based on various input prompts such as text, bounding boxes, points, or masks, introducing a novel methodology to overcome the constraints posed by dataset-specific scarcity. While SAM is trained on an extensive dataset, comprising ~11M images, it mostly consists of natural photographic images with only very limited images from other modalities. Whilst the rapid progress in visual infrared surveillance and X-ray security screening imaging technologies, driven forward by advances in deep learning, has significantly enhanced the ability to detect, classify and segment objects with high accuracy, it is not evident if the SAM zero-shot capabilities can be transferred to such modalities. This work assesses SAM capabilities in segmenting objects of interest in the X-ray/infrared modalities. Our approach reuses the pre-trained SAM with three different prompts: bounding box, centroid and random points. We present quantitative/qualitative results to showcase the performance on selected datasets. Our results show that SAM can segment objects in the X-ray modality when given a box prompt, but its performance varies for point prompts. Specifically, SAM performs poorly in segmenting slender objects and organic materials, such as plastic bottles. We find that infrared objects are also challenging to segment with point prompts given the low-contrast nature of this modality. This study shows that while SAM demonstrates outstanding zero-shot capabilities with box prompts, its performance ranges from moderate to poor for point prompts, indicating that special consideration on the cross-modal generalisation of SAM is needed when considering use on X-ray/infrared imagery.

arxiv情報

著者 Yona Falinie A. Gaus,Neelanjan Bhowmik,Brian K. S. Isaac-Medina,Toby P. Breckon
発行日 2024-04-18 16:04:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク