Dynamic Relevance Learning for Few-Shot Object Detection

要約

高価な境界ボックスの注釈は、オブジェクト検出タスクの開発を制限しています。
したがって、少数ショットのオブジェクト検出のより困難なタスクに焦点を当てる必要があります。
検出器は、わずかなトレーニング サンプルで新しいクラスのオブジェクトを認識する必要があります。
最近では、Meta R-CNN シリーズなど、メタ学習に似たトレーニング方法を採用した多くの既存の一般的な方法が有望なパフォーマンスを達成しています。
ただし、サポート データは、毎回クエリ イメージの検出をガイドするクラスの注意としてのみ使用されます。
それらの相互の関連性は未開発のままです。
さらに、最近の多くの研究では、サポート データとクエリ イメージを独立したブランチとして扱い、それらの間の関係を考慮していません。
この問題に対処するために、動的グラフ畳み込みネットワーク (GCN) を構築するために、すべてのサポート画像とクエリ画像の対象領域 (RoI) との関係を利用する動的関連性学習モデルを提案します。
この GCN の出力を使用して基本検出器の予測分布を調整することにより、提案されたモデルはハード補助分類タスクとして機能し、検出器がクラス表現を暗黙的に改善するように導きます。
Pascal VOC および MS-COCO データセットに対して包括的な実験が行われました。
提案されたモデルは最高の全体的なパフォーマンスを達成し、より一般化された機能を学習する効果を示しています。
コードは https://github.com/liuweijie19980216/DRL-for-FSOD で入手できます。

要約(オリジナル)

Expensive bounding-box annotations have limited the development of object detection task. Thus, it is necessary to focus on more challenging task of few-shot object detection. It requires the detector to recognize objects of novel classes with only a few training samples. Nowadays, many existing popular methods adopting training way similar to meta-learning have achieved promising performance, such as Meta R-CNN series. However, support data is only used as the class attention to guide the detecting of query images each time. Their relevance to each other remains unexploited. Moreover, a lot of recent works treat the support data and query images as independent branch without considering the relationship between them. To address this issue, we propose a dynamic relevance learning model, which utilizes the relationship between all support images and Region of Interest (RoI) on the query images to construct a dynamic graph convolutional network (GCN). By adjusting the prediction distribution of the base detector using the output of this GCN, the proposed model serves as a hard auxiliary classification task, which guides the detector to improve the class representation implicitly. Comprehensive experiments have been conducted on Pascal VOC and MS-COCO dataset. The proposed model achieves the best overall performance, which shows its effectiveness of learning more generalized features. Our code is available at https://github.com/liuweijie19980216/DRL-for-FSOD.

arxiv情報

著者 Weijie Liu,Chong Wang,Haohe Li,Shenghao Yu,Jiafei Wu
発行日 2023-03-22 13:26:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク