要約
オブジェクトの検出、特にオープンボキャブラリーオブジェクトの検出は、環境監視、自然災害評価、土地利用計画など、地球科学に重要な役割を果たします。
ただし、主に自然世界の画像で訓練された既存のオープンボキャブラリー検出器は、重要なデータドメインギャップのためにリモートセンシング画像に一般化するのに苦労しています。
したがって、このペーパーは、リモートセンシングコミュニティでのオープンボキャブラリーオブジェクト検出の開発を進めることを目的としています。
これを達成するために、私たちはまず、地球上の新しい概念を検出することを目的として、地球上の何かを見つけるようにタスクを再定式化します。
次に、幅広いカテゴリカバレッジを備えた最初の大規模リモートセンシングオブジェクト検出データセットであるLAE-1Mを作成する最大10個のリモートセンシングデータセットを収集、自動解決、統合するLAE-Labelエンジンを開発しました。
LAE-1Mを使用して、動的語彙構造(DVC)および視覚誘導テキストプロンプト学習(VISGT)モジュールを特徴とするLAEタスクの最初のオープンボキャブラリーファンデーションオブジェクト検出器であるLae-Dinoモデルをさらに提案して訓練します。
DVCは、各トレーニングバッチの語彙を動的に構築し、Visgtは視覚的な機能をセマンティックスペースにマッピングし、テキスト機能を強化します。
確立されたリモートセンシングベンチマークDior、DoTAV2.0、および新しく導入された80クラスのLAE-80Cベンチマークに関する実験を包括的に実施しています。
結果は、LAE-1Mデータセットの利点とLae-Dinoメソッドの有効性を示しています。
要約(オリジナル)
Object detection, particularly open-vocabulary object detection, plays a crucial role in Earth sciences, such as environmental monitoring, natural disaster assessment, and land-use planning. However, existing open-vocabulary detectors, primarily trained on natural-world images, struggle to generalize to remote sensing images due to a significant data domain gap. Thus, this paper aims to advance the development of open-vocabulary object detection in remote sensing community. To achieve this, we first reformulate the task as Locate Anything on Earth (LAE) with the goal of detecting any novel concepts on Earth. We then developed the LAE-Label Engine which collects, auto-annotates, and unifies up to 10 remote sensing datasets creating the LAE-1M – the first large-scale remote sensing object detection dataset with broad category coverage. Using the LAE-1M, we further propose and train the novel LAE-DINO Model, the first open-vocabulary foundation object detector for the LAE task, featuring Dynamic Vocabulary Construction (DVC) and Visual-Guided Text Prompt Learning (VisGT) modules. DVC dynamically constructs vocabulary for each training batch, while VisGT maps visual features to semantic space, enhancing text features. We comprehensively conduct experiments on established remote sensing benchmark DIOR, DOTAv2.0, as well as our newly introduced 80-class LAE-80C benchmark. Results demonstrate the advantages of the LAE-1M dataset and the effectiveness of the LAE-DINO method.
arxiv情報
著者 | Jiancheng Pan,Yanxing Liu,Yuqian Fu,Muyuan Ma,Jiahao Li,Danda Pani Paudel,Luc Van Gool,Xiaomeng Huang |
発行日 | 2025-02-13 18:01:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google