要約
物体検出は、コンピュータ ビジョンおよび衛星画像処理において不可欠かつ基本的なタスクです。
既存の深層学習手法は、大規模なアノテーション付きデータセットが利用できるおかげで、優れたパフォーマンスを達成しています。
ただし、実際のアプリケーションでは、利用できるラベルは限られています。
これに関連して、少数ショット オブジェクト検出 (FSOD) が有望な方向性として浮上しています。これは、モデルが少数のオブジェクトのみに注釈が付けられた新しいオブジェクトを検出できるようにすることを目的としています。
しかし、既存の FSOD アルゴリズムの多くは重大な問題を見落としています。入力画像に複数の新しいオブジェクトが含まれており、それらのサブセットのみに注釈が付けられている場合、ラベルのないオブジェクトはトレーニング中に背景と見なされます。
これは混乱を引き起こし、新しいオブジェクトを呼び出すモデルの能力に重大な影響を与える可能性があります。
この問題に対処するために、数ショット微調整プロセスに自己トレーニング メカニズムを組み込んだ自己トレーニング ベースの FSOD (ST-FSOD) アプローチを提案します。
ST-FSOD は、注釈が付けられていない新しいオブジェクトを発見し、トレーニング中にそれらを考慮できるようにすることを目的としています。
一方では、基本オブジェクトと新規オブジェクトの提案抽出を分離するための 2 つの分岐領域提案ネットワーク (RPN) を考案します。他方では、生徒と教師のメカニズムを RPN と関心領域 (RoI) のヘッドに組み込みます。
信頼度は高いがラベルのないターゲットを疑似ラベルとして含めます。
実験結果は、私たちが提案した方法が、さまざまな FSOD 設定において最先端の方法よりも大幅に優れていることを示しています。
コードは https://github.com/zhu-xlab/ST-FSOD で公開されます。
要約(オリジナル)
Object detection is an essential and fundamental task in computer vision and satellite image processing. Existing deep learning methods have achieved impressive performance thanks to the availability of large-scale annotated datasets. Yet, in real-world applications the availability of labels is limited. In this context, few-shot object detection (FSOD) has emerged as a promising direction, which aims at enabling the model to detect novel objects with only few of them annotated. However, many existing FSOD algorithms overlook a critical issue: when an input image contains multiple novel objects and only a subset of them are annotated, the unlabeled objects will be considered as background during training. This can cause confusions and severely impact the model’s ability to recall novel objects. To address this issue, we propose a self-training-based FSOD (ST-FSOD) approach, which incorporates the self-training mechanism into the few-shot fine-tuning process. ST-FSOD aims to enable the discovery of novel objects that are not annotated, and take them into account during training. On the one hand, we devise a two-branch region proposal networks (RPN) to separate the proposal extraction of base and novel objects, On another hand, we incorporate the student-teacher mechanism into RPN and the region of interest (RoI) head to include those highly confident yet unlabeled targets as pseudo labels. Experimental results demonstrate that our proposed method outperforms the state-of-the-art in various FSOD settings by a large margin. The codes will be publicly available at https://github.com/zhu-xlab/ST-FSOD.
arxiv情報
著者 | Fahong Zhang,Yilei Shi,Zhitong Xiong,Xiao Xiang Zhu |
発行日 | 2023-09-19 13:00:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google