RemoteSAM: Towards Segment Anything for Earth Observation

要約

私たちは、地球観測のための堅牢で柔軟な視覚基盤モデルを開発することを目指しています。
さまざまなタスクシナリオで必要なさまざまな入出力インターフェイスとの互換性を提供しながら、多様な視覚ターゲットを認識してローカライズする上で強力な機能を備えている必要があります。
現在のシステムは、これらの要件を満たすことはできません。通常、セマンティックカバレッジが限られている狭いデータドメインでトレーニングされたタスク固有のアーキテクチャを利用するからです。
私たちの研究では、これらの制限は、データとモデリングの2つの側面からです。
最初に、以前の人間の注釈やルールベースのアプローチと比較して、非常に優れたスケーラビリティを享受する自動データエンジンを紹介します。
これにより、この種の最大のデータセットを作成することができました。これは、前例のない範囲の多様なセマンティックカテゴリと属性仕様をカバーする270kの画像テキストマスクトリプレットで構成されています。
このデータファンデーションに基づいて、式のセグメンテーションを参照することを中心とするタスク統合パラダイムをさらに提案します。
タスク固有のヘッドのない単一のモデルを使用して、分類、検出、セグメンテーション、接地など、視力中心の幅広い知覚タスクを効果的に処理します。
データとモデリングに関するこれらの革新を組み合わせることで、いくつかの地球観測知覚ベンチマークに新しいSOTAを確立する基礎モデルであるRemotesamを提示し、Falcon、Geochat、LHRS-Botなどの他の基礎モデルを優れた効率を高めます。
モデルとデータは、https://github.com/1e12leon/remotesamで公開されています。

要約(オリジナル)

We aim to develop a robust yet flexible visual foundation model for Earth observation. It should possess strong capabilities in recognizing and localizing diverse visual targets while providing compatibility with various input-output interfaces required across different task scenarios. Current systems cannot meet these requirements, as they typically utilize task-specific architecture trained on narrow data domains with limited semantic coverage. Our study addresses these limitations from two aspects: data and modeling. We first introduce an automatic data engine that enjoys significantly better scalability compared to previous human annotation or rule-based approaches. It has enabled us to create the largest dataset of its kind to date, comprising 270K image-text-mask triplets covering an unprecedented range of diverse semantic categories and attribute specifications. Based on this data foundation, we further propose a task unification paradigm that centers around referring expression segmentation. It effectively handles a wide range of vision-centric perception tasks, including classification, detection, segmentation, grounding, etc, using a single model without any task-specific heads. Combining these innovations on data and modeling, we present RemoteSAM, a foundation model that establishes new SoTA on several earth observation perception benchmarks, outperforming other foundation models such as Falcon, GeoChat, and LHRS-Bot with significantly higher efficiency. Models and data are publicly available at https://github.com/1e12Leon/RemoteSAM.

arxiv情報

著者 Liang Yao,Fan Liu,Delong Chen,Chuanyi Zhang,Yijun Wang,Ziyun Chen,Wei Xu,Shimin Di,Yuhui Zheng
発行日 2025-06-02 10:46:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク