D2DF2WOD: Learning Object Proposals for Weakly-Supervised Object Detection via Progressive Domain Adaptation

要約

弱教師付き物体検出(WSOD)モデルは、正確だがコストがかかる物体定位ラベルの代わりに、画像レベルの注釈を活用しようとするものである。このため、推論時に標準的でないオブジェクト検出とローカライズになることがしばしばある。この問題に取り組むため、我々はD2DF2WOD(Dual-Domain Fully-to-Weakly Supervised Object Detection)を提案する。これは、画像レベルのラベルしか利用できない自然画像ターゲット領域を補完するため、正確な物体定位で注釈された合成データを活用するフレームワークである。ウォームアップ領域適応段階において、このモデルは完全教師ありオブジェクト検出器(FSOD)を学習し、ターゲット領域におけるオブジェクト提案の精度を向上させると同時に、ターゲット領域固有の、検出を考慮した提案特徴を学習する。その主なWSODステージでは、WSODモデルがターゲットドメインに特化してチューニングされる。WSODモデルの特徴抽出器と物体提案生成器は、微調整されたFSODモデルに基づいて構築される。我々はD2DF2WODを5つのデュアルドメイン画像ベンチマークでテストした。その結果、我々の手法は、最新の手法と比較して、一貫して改善された物体検出と位置特定をもたらすことが示された。

要約(オリジナル)

Weakly-supervised object detection (WSOD) models attempt to leverage image-level annotations in lieu of accurate but costly-to-obtain object localization labels. This oftentimes leads to substandard object detection and localization at inference time. To tackle this issue, we propose D2DF2WOD, a Dual-Domain Fully-to-Weakly Supervised Object Detection framework that leverages synthetic data, annotated with precise object localization, to supplement a natural image target domain, where only image-level labels are available. In its warm-up domain adaptation stage, the model learns a fully-supervised object detector (FSOD) to improve the precision of the object proposals in the target domain, and at the same time learns target-domain-specific and detection-aware proposal features. In its main WSOD stage, a WSOD model is specifically tuned to the target domain. The feature extractor and the object proposal generator of the WSOD model are built upon the fine-tuned FSOD model. We test D2DF2WOD on five dual-domain image benchmarks. The results show that our method results in consistently improved object detection and localization compared with state-of-the-art methods.

arxiv情報

著者 Yuting Wang,Ricardo Guerrero,Vladimir Pavlovic
発行日 2022-12-02 18:58:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク