Zero-Shot Aerial Object Detection with Visual Description Regularization

要約

既存の物体検出モデルは、主に大規模なラベル付きデータセットを用いて学習される。しかし、新しい空中物体クラスのためのデータ注釈は、時間がかかり、専門家の知識を必要とする可能性があるため、高価である。従って、空撮画像に対するラベル効率の良い物体検出手法の研究が望まれる。本研究では、視覚的記述正則化(DescReg)と呼ばれる、空中物体検出のためのゼロショット法を提案する。具体的には、空中物体の弱い意味的視覚的相関を識別し、その視覚的外観の事前記述を用いて課題に対処することを目指す。説明文をクラス埋め込み空間に直接エンコードする代わりに、表現ギャップの問題に悩まされるが、我々は、説明文に含まれる事前のクラス間の視覚的類似性を埋め込み学習に注入することを提案する。この注入処理は、表現空間に対する構造化正則化を組み込んだ、新しく設計された類似性を考慮した三重項損失により達成される。我々は、DIOR、xView、DOTAを含む3つの困難な空中物体検出データセットを用いて広範な実験を行った。その結果、DescRegは複雑な射影設計と生成フレームワークを持つ最先端のZSD法を大幅に上回ることが実証された。例えば、DescRegはDIORにおいて、未見のクラスで4.5mAP、HMで8.1mAPの差で、報告されている最良のZSD法を上回った。さらに、DescRegを生成的ZSD手法に統合し、検出アーキテクチャを変化させることで、DescRegの汎用性を示す。

要約(オリジナル)

Existing object detection models are mainly trained on large-scale labeled datasets. However, annotating data for novel aerial object classes is expensive since it is time-consuming and may require expert knowledge. Thus, it is desirable to study label-efficient object detection methods on aerial images. In this work, we propose a zero-shot method for aerial object detection named visual Description Regularization, or DescReg. Concretely, we identify the weak semantic-visual correlation of the aerial objects and aim to address the challenge with prior descriptions of their visual appearance. Instead of directly encoding the descriptions into class embedding space which suffers from the representation gap problem, we propose to infuse the prior inter-class visual similarity conveyed in the descriptions into the embedding learning. The infusion process is accomplished with a newly designed similarity-aware triplet loss which incorporates structured regularization on the representation space. We conduct extensive experiments with three challenging aerial object detection datasets, including DIOR, xView, and DOTA. The results demonstrate that DescReg significantly outperforms the state-of-the-art ZSD methods with complex projection designs and generative frameworks, e.g., DescReg outperforms best reported ZSD method on DIOR by 4.5 mAP on unseen classes and 8.1 in HM. We further show the generalizability of DescReg by integrating it into generative ZSD methods as well as varying the detection architecture.

arxiv情報

著者 Zhengqing Zang,Chenyu Lin,Chenwei Tang,Tao Wang,Jiancheng Lv
発行日 2024-03-01 10:07:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク