Towards Precise Weakly Supervised Object Detection via Interactive Contrastive Learning of Context Information

要約

タイトル:コンテキスト情報の相互対比学習による正確な弱監督物体検出への取り組み

要約:

– 弱監督物体検出(WSOD)は、画像レベルのタグのみで正確な物体検出器を学習することを目的としています。
– しかし、これまでの深層学習(DL)アプローチによる研究にもかかわらず、WSODと完全監督物体検出の性能には大きな差があります。
– この論文では、従来のWSOD方法が提案領域の視覚的外観しか考慮しておらず、有用なコンテキスト情報を無視していることに注目し、二つの革新的なWSOD固有のコンテキスト情報を提案し、WSODフレームワークに導入することを提唱しています。
– 具体的には、i) インスタンス別相関とセマンティック別相関という二つのWSOD固有のコンテキスト情報を提案して導入し、ii) 視覚的外観とコンテキスト情報を共同最適化するための相互対比学習機構であるiGCLメカニズムを設計することを提案します。
– このiGCLメカニズムは、WSODの相補的な解釈であるインスタンス別検出とセマンティック別予測タスクの補完的な解釈を十分に活用することで、より包括的な解決策を形成します。
– PASCAL VOCとMS COCOベンチマークでの広範な実験により、JLWSODが代替の最先端アプローチやベースラインモデルよりも優れていることが確認されており(それぞれmAPで3.6%〜23.3%、CorLocで3.4%〜19.7%の改善)、本研究がWSOD研究に貢献することを証明しています。

要約(オリジナル)

Weakly supervised object detection (WSOD) aims at learning precise object detectors with only image-level tags. In spite of intensive research on deep learning (DL) approaches over the past few years, there is still a significant performance gap between WSOD and fully supervised object detection. In fact, most existing WSOD methods only consider the visual appearance of each region proposal but ignore employing the useful context information in the image. To this end, this paper proposes an interactive end-to-end WSDO framework called JLWSOD with two innovations: i) two types of WSOD-specific context information (i.e., instance-wise correlation andsemantic-wise correlation) are proposed and introduced into WSOD framework; ii) an interactive graph contrastive learning (iGCL) mechanism is designed to jointly optimize the visual appearance and context information for better WSOD performance. Specifically, the iGCL mechanism takes full advantage of the complementary interpretations of the WSOD, namely instance-wise detection and semantic-wise prediction tasks, forming a more comprehensive solution. Extensive experiments on the widely used PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over alternative state-of-the-art approaches and baseline models (improvement of 3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively).

arxiv情報

著者 Lai Qi
発行日 2023-04-27 11:54:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク