GeoSAM: Fine-tuning SAM with Multi-Modal Prompts for Mobility Infrastructure Segmentation

要約

地理的画像セグメンテーションでは、特に道路、歩道、横断歩道などのモビリティ インフラストラクチャのセグメント化では、トレーニング データの利用可能性が限られていることと一般化可能性の欠如によってパフォーマンスが制約されることがよくあります。
何百万もの自然画像で事前トレーニングされたセグメント エニシング モデル (SAM) のようなビジョン基盤モデルは、ゼロショット セグメンテーションの優れたパフォーマンスを実証し、潜在的なソリューションを提供します。
ただし、SAM は、トレーニングが自然画像に限定されており、これらのオブジェクトの狭い特徴やテクスチャが周囲に溶け込んでいるため、航空写真や衛星画像などの地理画像には苦労します。
これらの課題に対処するために、私たちは地理的 SAM (GeoSAM) を提案します。これは、自動的に生成されたマルチモーダル プロンプトで SAM を微調整する SAM ベースのフレームワークで、主要な視覚的ガイダンスとテキスト プロンプトとして、事前にトレーニングされたタスク固有のモデルからのポイント プロンプトを組み合わせます。
モデルの理解を強化するための二次的な意味論的なガイダンスとして、大規模な言語モデルから取得します。
GeoSAM は、馴染みのある地域とまったく見たことのない地域の両方で、モビリティ インフラストラクチャのセグメント化に対する既存のアプローチよりも mIoU で少なくとも 5\% 優れています。これは、地理画像内の道路と歩行者インフラストラクチャの両方を含むモビリティ インフラストラクチャをセグメント化するための基盤モデルの活用において、大幅な進歩を示しています。
ソース コードは、GitHub リポジトリ: https://github.com/rafiibnsultan/GeoSAM にあります。

要約(オリジナル)

In geographical image segmentation, performance is often constrained by the limited availability of training data and a lack of generalizability, particularly for segmenting mobility infrastructure such as roads, sidewalks, and crosswalks. Vision foundation models like the Segment Anything Model (SAM), pre-trained on millions of natural images, have demonstrated impressive zero-shot segmentation performance, providing a potential solution. However, SAM struggles with geographical images, such as aerial and satellite imagery, due to its training being confined to natural images and the narrow features and textures of these objects blending into their surroundings. To address these challenges, we propose Geographical SAM (GeoSAM), a SAM-based framework that fine-tunes SAM with automatically generated multi-modal prompts, combining point prompts from a pre-trained task-specific model as primary visual guidance and text prompts from a large language model as secondary semantic guidance to enhance model comprehension. GeoSAM outperforms existing approaches for mobility infrastructure segmentation in both familiar and completely unseen regions by at least 5\% in mIoU, representing a significant leap in leveraging foundation models to segment mobility infrastructure, including both road and pedestrian infrastructure in geographical images. The source code can be found in this GitHub Repository: https://github.com/rafiibnsultan/GeoSAM.

arxiv情報

著者 Rafi Ibn Sultan,Chengyin Li,Hui Zhu,Prashant Khanduri,Marco Brocanelli,Dongxiao Zhu
発行日 2024-12-09 17:33:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク