HUWSOD: Holistic Self-training for Unified Weakly Supervised Object Detection

要約

ほとんどの WSOD 手法は、候補領域を生成するために従来のオブジェクト提案に依存しており、不安定なトレーニングに直面し、貧弱な局所最適に陥りやすくなります。
このペーパーでは、外部モジュールや追加の監視を必要とせずに包括的な自己トレーニング フレームワークを利用する、HUWSOD と呼ばれる統合された大容量の弱監視オブジェクト検出 (WSOD) ネットワークを紹介します。
HUWSOD は、自己監視型プロポーザル ジェネレーターとマルチレート リサンプリング ピラミッドを備えたオートエンコーダー プロポーザル ジェネレーターを革新的に組み込んで、従来のオブジェクト プロポーザルを置き換え、エンドツーエンドの WSOD トレーニングと推論を可能にします。
さらに、段階的なエントロピー最小化と一貫性制約の正則化を通じて検出スコアと座標を調整する総合的な自己トレーニング スキームを実装し、同じ画像の確率的拡張全体で一貫した予測を保証します。
PASCAL VOC および MS COCO に関する広範な実験により、HUWSOD が最先端の WSOD 手法と競合し、オフラインの提案や追加データの必要性がなくなることが実証されました。
HUWSOD のピーク パフォーマンスは、完全に監視された Faster R-CNN のパフォーマンスに近づきます。
また、私たちの調査結果は、ランダムに初期化されたボックスが、適切に設計されたオフライン オブジェクトの提案とは大きく異なるものの、WSOD トレーニングには効果的であることも示しています。

要約(オリジナル)

Most WSOD methods rely on traditional object proposals to generate candidate regions and are confronted with unstable training, which easily gets stuck in a poor local optimum. In this paper, we introduce a unified, high-capacity weakly supervised object detection (WSOD) network called HUWSOD, which utilizes a comprehensive self-training framework without needing external modules or additional supervision. HUWSOD innovatively incorporates a self-supervised proposal generator and an autoencoder proposal generator with a multi-rate resampling pyramid to replace traditional object proposals, enabling end-to-end WSOD training and inference. Additionally, we implement a holistic self-training scheme that refines detection scores and coordinates through step-wise entropy minimization and consistency-constraint regularization, ensuring consistent predictions across stochastic augmentations of the same image. Extensive experiments on PASCAL VOC and MS COCO demonstrate that HUWSOD competes with state-of-the-art WSOD methods, eliminating the need for offline proposals and additional data. The peak performance of HUWSOD approaches that of fully-supervised Faster R-CNN. Our findings also indicate that randomly initialized boxes, although significantly different from well-designed offline object proposals, are effective for WSOD training.

arxiv情報

著者 Liujuan Cao,Jianghang Lin,Zebo Hong,Yunhang Shen,Shaohui Lin,Chao Chen,Rongrong Ji
発行日 2024-06-27 17:59:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク