要約
リモート センシング画像の数がますます増えているため、コストをかけて新たにラベル付けされたデータを収集することなく、トレーニング カテゴリを超えた物体を検出できる拡張可能な物体検出器の開発が促進されています。
この論文では、訓練データを超えて物体の語彙サイズをスケールアップする、航空画像におけるオープン語彙物体検出 (OVD) 技術を開発することを目的としています。
OVD のパフォーマンスは、クラスに依存しない領域提案と新しいオブジェクト カテゴリの疑似ラベルの品質に大きく依存します。
高品質の提案と疑似ラベルを同時に生成するために、CLIP で起動される学生と教師のオープン語彙オブジェクト検出フレームワークである CastDet を提案します。
生徒と教師の自己学習メカニズムに従ったエンドツーエンドのフレームワークは、豊富な知識を持つ追加の全知の教師として RemoteCLIP モデルを採用しています。
そうすることで、私たちのアプローチは新しいオブジェクトの提案だけでなく分類も促進します。
さらに、バッチ トレーニング中に高品質の擬似ラベルを維持するための動的ラベル キュー戦略を考案しました。
OVD タスク用に設定された複数の既存の航空物体検出データセットに対して広範な実験を実施します。
実験結果は、当社の CastDet が優れたオープン語彙検出パフォーマンスを達成していることを示しています。たとえば、VisDroneZSD の新規カテゴリでは 46.5% mAP に達し、最先端のオープン語彙検出器の mAP を 21.0% 上回っています。
私たちの知る限り、これは、航空画像にオープンボキャブラリーの物体検出技術を適用および開発した最初の研究です。
コードは https://github.com/lizzy8587/CastDet で入手できます。
要約(オリジナル)
An increasingly massive number of remote-sensing images spurs the development of extensible object detectors that can detect objects beyond training categories without costly collecting new labeled data. In this paper, we aim to develop open-vocabulary object detection (OVD) technique in aerial images that scales up object vocabulary size beyond training data. The performance of OVD greatly relies on the quality of class-agnostic region proposals and pseudo-labels for novel object categories. To simultaneously generate high-quality proposals and pseudo-labels, we propose CastDet, a CLIP-activated student-teacher open-vocabulary object Detection framework. Our end-to-end framework following the student-teacher self-learning mechanism employs the RemoteCLIP model as an extra omniscient teacher with rich knowledge. By doing so, our approach boosts not only novel object proposals but also classification. Furthermore, we devise a dynamic label queue strategy to maintain high-quality pseudo labels during batch training. We conduct extensive experiments on multiple existing aerial object detection datasets, which are set up for the OVD task. Experimental results demonstrate our CastDet achieving superior open-vocabulary detection performance, e.g., reaching 46.5% mAP on VisDroneZSD novel categories, which outperforms the state-of-the-art open-vocabulary detectors by 21.0% mAP. To our best knowledge, this is the first work to apply and develop the open-vocabulary object detection technique for aerial images. The code is available at https://github.com/lizzy8587/CastDet.
arxiv情報
著者 | Yan Li,Weiwei Guo,Xue Yang,Ning Liao,Dunyun He,Jiaqi Zhou,Wenxian Yu |
発行日 | 2024-10-28 16:01:14+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google