Toward Open Vocabulary Aerial Object Detection with CLIP-Activated Student-Teacher Learning

要約

リモート センシング画像の数がますます増えているため、コストをかけて新たにラベル付けされたデータを収集することなく、トレーニング カテゴリを超えた物体を検出できる拡張可能な物体検出器の開発が促進されています。
この論文では、訓練データを超えて物体の語彙サイズをスケールアップする、航空画像におけるオープン語彙物体検出 (OVD) 技術を開発することを目的としています。
基本的な課題は、オープンボキャブラリーのオブジェクト検出パフォーマンスの妨げとなります。それは、クラスに依存しない領域提案と、新しいオブジェクト カテゴリに適切に一般化できる擬似ラベルの品質です。
高品質の提案と疑似ラベルを同時に生成するために、CLIP で起動される学生と教師のオープン語彙オブジェクト検出フレームワークである CastDet を提案します。
生徒と教師の自己学習メカニズムに従ったエンドツーエンドのフレームワークは、豊富な知識を持つ追加の全知の教師として RemoteCLIP モデルを採用しています。
そうすることで、私たちのアプローチは新しいオブジェクトの提案だけでなく分類も促進します。
さらに、バッチ トレーニング中に高品質の疑似ラベルを維持するための動的ラベル キュー戦略を考案しました。
OVD タスク用に設定された複数の既存の航空物体検出データセットに対して広範な実験を実施します。
実験結果は、CastDet が優れたオープン語彙検出パフォーマンスを達成していることを示しています (例: 40.5\% mAP に達し、VisDroneZSD データセット上で以前の方法である Detic/ViLD を 23.7%/14.9% 上回っています)。
私たちの知る限り、これは航空画像にオープンボキャブラリーの物体検出技術を適用および開発した最初の研究です。

要約(オリジナル)

An increasingly massive number of remote-sensing images spurs the development of extensible object detectors that can detect objects beyond training categories without costly collecting new labeled data. In this paper, we aim to develop open-vocabulary object detection (OVD) technique in aerial images that scales up object vocabulary size beyond training data. The fundamental challenges hinder open vocabulary object detection performance: the qualities of the class-agnostic region proposals and the pseudo-labels that can generalize well to novel object categories. To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework. Our end-to-end framework following the student-teacher self-learning mechanism employs the RemoteCLIP model as an extra omniscient teacher with rich knowledge. By doing so, our approach boosts not only novel object proposals but also classification. Furthermore, we devise a dynamic label queue strategy to maintain high-quality pseudo labels during batch training. We conduct extensive experiments on multiple existing aerial object detection datasets, which are set up for the OVD task. Experimental results demonstrate our CastDet achieving superior open-vocabulary detection performance, e.g., reaching 40.5\% mAP, which outperforms previous methods Detic/ViLD by 23.7%/14.9% on the VisDroneZSD dataset. To our best knowledge, this is the first work to apply and develop the open-vocabulary object detection technique for aerial images.

arxiv情報

著者 Yan Li,Weiwei Guo,Xue Yang,Ning Liao,Dunyun He,Jiaqi Zhou,Wenxian Yu
発行日 2024-03-13 13:42:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク