Towards Precise Weakly Supervised Object Detection via Interactive Contrastive Learning of Context Information

要約

【タイトル】コンテキスト情報の対話的対比学習による正確な弱監督下の物体検出に向けて

【要約】
– 弱監督下の物体検出(WSOD)は、画像レベルのラベルのみで正確な物体検出器を学習することを目的としています。
– 過去数年間の深層学習(DL)アプローチに関する研究が盛んに行われているにもかかわらず、WSODと完全な監視下の物体検出の間にはまだ大きなパフォーマンスの差があります。
– 実際、ほとんどの既存のWSOD方法は、リージョンプロポーザルの視覚的な外見のみを考慮し、画像内の有用なコンテキスト情報を無視します。
– このため、本論文は、WSODフレームワークに導入された2種類のWSOD特有のコンテキスト情報(インスタンスベースの相関とセマンティックベースの相関)と、それらを組み合わせて最適化する対話的グラフ対比学習(iGCL)メカニズムの導入を提案します。
– 具体的には、iGCLメカニズムは、インスタンスベースの検出とセマンティックベースの予測タスクの相補的な解釈を最大限に活用し、より包括的なソリューションを形成します。
– 広く使用されているPASCAL VOCとMS COCOベンチマークでの広範な実験により、JLWSODが代替の最先端手法およびベースラインモデルに比べて優れていることが確認されました(mAPでは3.6%〜23.3%、CorLocでは3.4%〜19.7%の改善)。

要約(オリジナル)

Weakly supervised object detection (WSOD) aims at learning precise object detectors with only image-level tags. In spite of intensive research on deep learning (DL) approaches over the past few years, there is still a significant performance gap between WSOD and fully supervised object detection. In fact, most existing WSOD methods only consider the visual appearance of each region proposal but ignore employing the useful context information in the image. To this end, this paper proposes an interactive end-to-end WSDO framework called JLWSOD with two innovations: i) two types of WSOD-specific context information (i.e., instance-wise correlation andsemantic-wise correlation) are proposed and introduced into WSOD framework; ii) an interactive graph contrastive learning (iGCL) mechanism is designed to jointly optimize the visual appearance and context information for better WSOD performance. Specifically, the iGCL mechanism takes full advantage of the complementary interpretations of the WSOD, namely instance-wise detection and semantic-wise prediction tasks, forming a more comprehensive solution. Extensive experiments on the widely used PASCAL VOC and MS COCO benchmarks verify the superiority of JLWSOD over alternative state-of-the-art approaches and baseline models (improvement of 3.6%~23.3% on mAP and 3.4%~19.7% on CorLoc, respectively).

arxiv情報

著者 Qi Lai,ChiMan Vong
発行日 2023-05-05 10:08:26+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV パーマリンク