Prompt-Based Segmentation at Multiple Resolutions and Lighting Conditions using Segment Anything Model 2

要約

このペーパーでは、ゼロ ショットのプロンプトベースのセグメント エニシング モデル (SAM) とその更新バージョンである SAM 2 および SAM 2.1、および非プロンプト対応の従来型ニューラル ネットワーク (CNN) の、太陽光パネルのセグメント化における有効性についての洞察を提供します。
RGB 航空写真。
この研究では、さまざまな照明条件、空間解像度、迅​​速な戦略にわたってこれらのモデルを評価します。
SAM 2 では SAM に比べて若干の改善が見られましたが、SAM 2.1 では、特に最適ではない照明や低解像度の条件で顕著な改善が見られました。
SAM モデルは、ユーザー定義のボックスによってプロンプトが表示された場合、すべてのシナリオで CNN を上回りました。
特に、ユーザー ボックス プロンプトは、低解像度データで適切なパフォーマンスを達成するために重要であることがわかりました。
さらに、高解像度では、信頼性の高いプロンプトを SAM に提供することにより、YOLOv9 自動プロンプトがユーザー ポイント プロンプトよりも優れたパフォーマンスを発揮しました。
低解像度では、ユーザー ポイントによってプロンプトされた SAM 2.1 は、YOLOv9 によってプロンプトされた SAM 2.1 と同様のパフォーマンスを示し、ワンクリックでのゼロ ショットの改善が強調されました。
最適な照明画像を使用した高解像度では、Eff-UNet は YOLOv9 によって促進された SAM よりも優れたパフォーマンスを示しましたが、最適ではない照明条件では、Eff-UNet と YOLOv9 によって促進された SAM 2.1 は同様のパフォーマンスを示しました。
ただし、SAM はより多くのリソースを消費し、SAM 2.1 の推論時間は改善されていますが、Eff-UNet は高解像度データの自動セグメンテーションにより適しています。
この研究では、各モデルの長所と限界を詳細に説明し、ユーザープロンプトの画像セグメンテーション モデルの堅牢性について概説します。

要約(オリジナル)

This paper provides insights on the effectiveness of the zero shot, prompt-based Segment Anything Model (SAM) and its updated versions, SAM 2 and SAM 2.1, along with the non-promptable conventional neural network (CNN), for segmenting solar panels in RGB aerial imagery. The study evaluates these models across diverse lighting conditions, spatial resolutions, and prompt strategies. SAM 2 showed slight improvements over SAM, while SAM 2.1 demonstrated notable improvements, particularly in sub-optimal lighting and low resolution conditions. SAM models, when prompted by user-defined boxes, outperformed CNN in all scenarios; in particular, user-box prompts were found crucial for achieving reasonable performance in low resolution data. Additionally, under high resolution, YOLOv9 automatic prompting outperformed user-points prompting by providing reliable prompts to SAM. Under low resolution, SAM 2.1 prompted by user points showed similar performance to SAM 2.1 prompted by YOLOv9, highlighting its zero shot improvements with a single click. In high resolution with optimal lighting imagery, Eff-UNet outperformed SAMs prompted by YOLOv9, while under sub-optimal lighting conditions, Eff-UNet, and SAM 2.1 prompted by YOLOv9, had similar performance. However, SAM is more resource-intensive, and despite improved inference time of SAM 2.1, Eff-UNet is more suitable for automatic segmentation in high resolution data. This research details strengths and limitations of each model and outlines the robustness of user-prompted image segmentation models.

arxiv情報

著者 Osher Rafaeli,Tal Svoray,Roni Blushtein-Livnon,Ariel Nahlieli
発行日 2025-01-01 16:32:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク