InstructSAM: A Training-Free Framework for Instruction-Oriented Remote Sensing Object Recognition

要約

リモートセンシング画像における言語誘導オブジェクト認識は、大規模なマッピングと自動データアノテーションに不可欠です。
ただし、既存のオープンボキャブラリーおよび視覚的接地方法は、明示的なカテゴリの手がかりに依存しており、高度な推論を必要とする複雑または暗黙のクエリを処理する能力を制限します。
この問題に対処するために、命令指向のオブジェクトカウント、検出、セグメンテーション(InstructCDS)などの新しいタスクを紹介し、オープンポンシャル、オープンエンド、およびオープンサブカラスのシナリオをカバーします。
さらに、地球観測のための最初のinstantCDSベンチマークであるEarthinstructを提示します。
これは、20のカテゴリでさまざまな空間解像度と注釈ルールを備えた2つの多様なリモートセンシングデータセットから構築されているため、データセット固有の命令を解釈するモデルが必要です。
リモートセンシングにおける意味的に豊富なラベル付きデータの希少性を考えると、命令駆動型のオブジェクト認識のためのトレーニングなしのフレームワークであるInstructsamを提案します。
Instructsamは、大規模なビジョン言語モデルを活用してユーザー命令を解釈し、オブジェクトカウントを推定し、Mask ProposalにSAM2を採用し、Mask-Labelの割り当てをバイナリ整数プログラミングの問題として策定します。
セマンティックの類似性をカウント制約と統合することにより、Instructsamは、信頼のしきい値に依存することなく、カテゴリを予測マスクに効率的に割り当てます。
実験は、instructsamがオブジェクトカウントに関係なく、ほぼ直後の推論時間を維持しながら、複数のタスクにわたって特殊なベースラインを一致または上回ることを示しています。
提案されたタスク、ベンチマーク、および効果的なアプローチの貢献は、汎用性の高いオブジェクト認識システムの開発における将来の研究を進めると考えています。

要約(オリジナル)

Language-Guided object recognition in remote sensing imagery is crucial for large-scale mapping and automated data annotation. However, existing open-vocabulary and visual grounding methods rely on explicit category cues, limiting their ability to handle complex or implicit queries that require advanced reasoning. To address this issue, we introduce a new suite of tasks, including Instruction-Oriented Object Counting, Detection, and Segmentation (InstructCDS), covering open-vocabulary, open-ended, and open-subclass scenarios. We further present EarthInstruct, the first InstructCDS benchmark for earth observation. It is constructed from two diverse remote sensing datasets with varying spatial resolutions and annotation rules across 20 categories, necessitating models to interpret dataset-specific instructions. Given the scarcity of semantically rich labeled data in remote sensing, we propose InstructSAM, a training-free framework for instruction-driven object recognition. InstructSAM leverages large vision-language models to interpret user instructions and estimate object counts, employs SAM2 for mask proposal, and formulates mask-label assignment as a binary integer programming problem. By integrating semantic similarity with counting constraints, InstructSAM efficiently assigns categories to predicted masks without relying on confidence thresholds. Experiments demonstrate that InstructSAM matches or surpasses specialized baselines across multiple tasks while maintaining near-constant inference time regardless of object count, reducing output tokens by 89% and overall runtime by over 32% compared to direct generation approaches. We believe the contributions of the proposed tasks, benchmark, and effective approach will advance future research in developing versatile object recognition systems.

arxiv情報

著者 Yijie Zheng,Weijie Wu,Qingyun Li,Xuehui Wang,Xu Zhou,Aiai Ren,Jun Shen,Long Zhao,Guoqing Li,Xue Yang
発行日 2025-05-21 17:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク