要約
このペーパーでは、ソーラー パネルのセグメント化における、ゼロショット、プロンプトベースのセグメント エニシング モデル (SAM) とその更新バージョンである SAM 2、およびプロンプトを使用しない従来の畳み込みネットワーク (CNN) の有効性についての洞察を提供します。
照明条件、空間解像度、即時戦略にわたる RGB 航空画像。
SAM 2 は、特にポイントによって促された場合の次善の照明条件において、SAM に比べて改善が見られることを示しています。
ユーザーボックスによって促された両方の SAM は、すべてのシナリオで CNN を上回りました。
さらに、YOLOv9 プロンプトはユーザー ポイント プロンプトを上回りました。
高解像度画像では、最適な照明条件と準最適な照明条件の両方で、Eff-UNet は YOLOv9 ボックスによって促進された両方の SAM モデルよりも優れたパフォーマンスを示し、Eff-UNet を高解像度データの自動セグメンテーションに適切なモデルとして位置づけました。
低解像度データでは、適切なパフォーマンスを達成するにはユーザー ボックス プロンプトが重要であることがわかりました。
このペーパーでは、各モデルの長所と限界について詳しく説明し、リモート センシング データの一貫性のない解像度と照明条件におけるユーザー プロンプトの画像セグメンテーション モデルの堅牢性について概説します。
要約(オリジナル)
This paper provides insight into the effectiveness of zero-shot, prompt-based, Segment Anything Model (SAM), and its updated version, SAM 2, and the non-promptable, conventional convolutional network (CNN), in segmenting solar panels, in RGB aerial imagery, across lighting conditions, spatial resolutions, and prompt strategies. SAM 2 demonstrates improvements over SAM, particularly in sub-optimal lighting conditions when prompted by points. Both SAMs, prompted by user-box, outperformed CNN, in all scenarios. Additionally, YOLOv9 prompting outperformed user points prompting. In high-resolution imagery, both in optimal and sub-optimal lighting conditions, Eff-UNet outperformed both SAM models prompted by YOLOv9 boxes, positioning Eff-UNet as the appropriate model for automatic segmentation in high-resolution data. In low-resolution data, user box prompts were found crucial to achieve a reasonable performance. This paper provides details on strengths and limitations of each model and outlines robustness of user prompted image segmentation models in inconsistent resolution and lighting conditions of remotely sensed data.
arxiv情報
著者 | Osher Rafaeli,Tal Svoray,Ariel Nahlieli |
発行日 | 2024-08-13 15:27:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google