MapSAM: Adapting Segment Anything Model for Automated Feature Detection in Historical Maps

要約

歴史地図の自動特徴検出により、過去の地理空間の再構築が大幅に加速されます。
ただし、このプロセスは、十分な高品質のトレーニング データを手動でデジタル化するという時間のかかる作業によって制約されることがよくあります。
セグメント エニシング モデル (SAM) などのビジュアル基盤モデルの出現は、その優れた一般化機能と新しいデータ分布への迅速な適応により、有望なソリューションを提供します。
それにもかかわらず、ゼロショット方式で SAM を歴史地図のセグメンテーションに直接適用すると、特定の地理空間特徴の認識が不十分であったり、入力プロンプトに依存したりするなど、完全に自動化する能力が制限されるなど、重大な課題が生じます。
これらの課題に対処するために、私たちは MapSAM を導入しました。これは、SAM をさまざまな下流の歴史地図セグメンテーション タスクに対するプロンプト不要の汎用性の高いソリューションに適応させる、パラメーター効率の高い微調整戦略です。
具体的には、重み分解低ランク適応 (DoRA) を採用して、ドメイン固有の知識を画像エンコーダーに統合します。
さらに、自動プロンプト生成プロセスを開発し、手動入力の必要性を排除します。
SAM の位置プロンプトをさらに強化して、より高レベルの位置意味プロンプトに変換し、より効果的な特徴集約のためにマスクされたアテンションを使用してマスク デコーダーのクロス アテンション メカニズムを変更します。
提案された MapSAM フレームワークは、2 つの異なる歴史地図セグメンテーション タスク (1 つは線形フィーチャに、もう 1 つは面フィーチャに重点を置いています) にわたって有望なパフォーマンスを示しています。
実験結果は、非常に限られたデータ (例: 10 ショット) で微調整した場合でも、さまざまな機能にうまく適応することを示しています。

要約(オリジナル)

Automated feature detection in historical maps can significantly accelerate the reconstruction of the geospatial past. However, this process is often constrained by the time-consuming task of manually digitizing sufficient high-quality training data. The emergence of visual foundation models, such as the Segment Anything Model (SAM), offers a promising solution due to their remarkable generalization capabilities and rapid adaptation to new data distributions. Despite this, directly applying SAM in a zero-shot manner to historical map segmentation poses significant challenges, including poor recognition of certain geospatial features and a reliance on input prompts, which limits its ability to be fully automated. To address these challenges, we introduce MapSAM, a parameter-efficient fine-tuning strategy that adapts SAM into a prompt-free and versatile solution for various downstream historical map segmentation tasks. Specifically, we employ Weight-Decomposed Low-Rank Adaptation (DoRA) to integrate domain-specific knowledge into the image encoder. Additionally, we develop an automatic prompt generation process, eliminating the need for manual input. We further enhance the positional prompt in SAM, transforming it into a higher-level positional-semantic prompt, and modify the cross-attention mechanism in the mask decoder with masked attention for more effective feature aggregation. The proposed MapSAM framework demonstrates promising performance across two distinct historical map segmentation tasks: one focused on linear features and the other on areal features. Experimental results show that it adapts well to various features, even when fine-tuned with extremely limited data (e.g. 10 shots).

arxiv情報

著者 Xue Xia,Daiwei Zhang,Wenxuan Song,Wei Huang,Lorenz Hurni
発行日 2024-11-11 13:18:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク