Segment anything, from space?

要約

最近、視覚タスク専用に開発された最初の基礎モデルが開発され、「セグメント エニシング モデル」(SAM) と呼ばれます。
SAM は、1 つ (または複数) の点、境界ボックス、マスクなどの安価な入力プロンプトに基づいて、入力画像内のオブジェクトをセグメント化できます。
著者らは、多数の視覚ベンチマーク タスクで SAM のゼロショット画像セグメンテーション精度を調べたところ、SAM が通常、対象タスクでトレーニングされた視覚モデルと同等、または場合によってはそれを超える認識精度を達成していることがわかりました。
セグメンテーションにおける SAM の印象的な一般化は、自然画像を扱う視覚研究者にとって大きな意味を持ちます。
この研究では、SAM の優れたパフォーマンスが頭上画像の問題にも及ぶかどうかを検証し、SAM の開発に対するコミュニティの対応を導くのに役立ちます。
私たちは、幅広く研究されている一連の多様なベンチマーク タスクにおける SAM のパフォーマンスを検証します。
SAM は、俯瞰画像やターゲット オブジェクトの固有の特性により、場合によっては失敗することもありますが、多くの場合、俯瞰画像に対してうまく一般化できることがわかりました。
私たちは、コミュニティにとって有用な将来の研究を構成する可能性のある、リモート センシング画像に関するこれらのユニークな系統的失敗例について報告します。
これは研究報告書であり、追加の分析と結果が完了次第更新されることに注意してください。

要約(オリジナル)

Recently, the first foundation model developed specifically for vision tasks was developed, termed the ‘Segment Anything Model’ (SAM). SAM can segment objects in input imagery based upon cheap input prompts, such as one (or more) points, a bounding box, or a mask. The authors examined the zero-shot image segmentation accuracy of SAM on a large number of vision benchmark tasks and found that SAM usually achieved recognition accuracy similar to, or sometimes exceeding, vision models that had been trained on the target tasks. The impressive generalization of SAM for segmentation has major implications for vision researchers working on natural imagery. In this work, we examine whether SAM’s impressive performance extends to overhead imagery problems, and help guide the community’s response to its development. We examine SAM’s performance on a set of diverse and widely-studied benchmark tasks. We find that SAM does often generalize well to overhead imagery, although it fails in some cases due to the unique characteristics of overhead imagery and the target objects. We report on these unique systematic failure cases for remote sensing imagery that may comprise useful future research for the community. Note that this is a working paper, and it will be updated as additional analysis and results are completed.

arxiv情報

著者 Simiao Ren,Francesco Luzi,Saad Lahrichi,Kaleb Kassaw,Leslie M. Collins,Kyle Bradbury,Jordan M. Malof
発行日 2023-05-15 14:05:25+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク