Zero-Shot Refinement of Buildings’ Segmentation Models using SAM

要約

基礎モデルは様々なタスクで優れているが、一般的なベンチマークで評価されることが多い。これらのモデルをリモートセンシング画像のような特定のドメインに適応させることは、まだ未開拓の領域である。リモートセンシングにおいて、正確な建物インスタンスのセグメンテーションは、都市計画のようなアプリケーションに不可欠である。畳み込みニューラルネットワーク(CNN)は優れた性能を発揮するが、その汎化には限界がある。この目的のために、我々は、既存のモデルの汎化ドロップバックに対処するために、基礎モデルを適応させる新しいアプローチを提示する。幾つかのモデルの中で、我々はSegment Anything Model(SAM)に焦点を当てる。SAMは、クラスにとらわれない画像セグメンテーション能力の高さで有名な強力な基礎モデルである。我々はまずSAMの限界を明らかにすることから始め、リモートセンシング画像に適用した場合の性能が最適でないことを明らかにする。さらに、SAMは認識能力を持たないため、ローカライズされたオブジェクトの分類やタグ付けができない。これらの限界に対処するため、事前に訓練したCNNをプロンプト生成器として統合するなど、さまざまなプロンプト戦略を導入する。この新しいアプローチは、SAMを認識能力で補強するものであり、この種のものとしては初めてのものである。我々は、WHU Buildingsデータセット、Massachusts Buildingsデータセット、AICrowd Mapping Challengeを含む3つのリモートセンシングデータセットで本手法を評価した。WHUデータセットの分布外性能については、IoUで5.47%の向上、F1スコアで4.81%の向上を達成した。WHUデータセットの配布内パフォーマンスでは、True-Positive-IoUとTrue-Positive-F1スコアがそれぞれ2.72%と1.58%向上した。我々は、リモートセンシングコミュニティにおけるドメイン固有のタスクのための基礎モデルのさらなる探求を刺激することを期待して、コードリポジトリを公開するつもりである。

要約(オリジナル)

Foundation models have excelled in various tasks but are often evaluated on general benchmarks. The adaptation of these models for specific domains, such as remote sensing imagery, remains an underexplored area. In remote sensing, precise building instance segmentation is vital for applications like urban planning. While Convolutional Neural Networks (CNNs) perform well, their generalization can be limited. For this aim, we present a novel approach to adapt foundation models to address existing models’ generalization dropback. Among several models, our focus centers on the Segment Anything Model (SAM), a potent foundation model renowned for its prowess in class-agnostic image segmentation capabilities. We start by identifying the limitations of SAM, revealing its suboptimal performance when applied to remote sensing imagery. Moreover, SAM does not offer recognition abilities and thus fails to classify and tag localized objects. To address these limitations, we introduce different prompting strategies, including integrating a pre-trained CNN as a prompt generator. This novel approach augments SAM with recognition abilities, a first of its kind. We evaluated our method on three remote sensing datasets, including the WHU Buildings dataset, the Massachusetts Buildings dataset, and the AICrowd Mapping Challenge. For out-of-distribution performance on the WHU dataset, we achieve a 5.47% increase in IoU and a 4.81% improvement in F1-score. For in-distribution performance on the WHU dataset, we observe a 2.72% and 1.58% increase in True-Positive-IoU and True-Positive-F1 score, respectively. We intend to release our code repository, hoping to inspire further exploration of foundation models for domain-specific tasks within the remote sensing community.

arxiv情報

著者 Ali Mayladan,Hasan Nasrallah,Hasan Moughnieh,Mustafa Shukor,Ali J. Ghandour
発行日 2023-10-03 07:19:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.CV, cs.LG パーマリンク