Contrastive Proposal Extension with LSTM Network for Weakly Supervised Object Detection

要約

弱教師付きオブジェクト検出 (WSOD) は、画像レベルのラベルのみを使用し、膨大な注釈コストを節約できるため、ますます注目を集めています。
ほとんどの WSOD メソッドは、複数インスタンス学習 (MIL) を基本フレームワークとして使用し、インスタンス分類問題と見なします。
ただし、MIL に基づくこれらの方法は、対応する完全な領域ではなく、さまざまなインスタンスの最も差別的な領域にのみ収束する傾向があります。つまり、整合性が不十分です。
人間が物事を観察する習慣に着想を得て、初期提案と拡張提案を比較して初期提案を最適化する新しい方法を提案します。
具体的には、複数の方向性対比提案拡張 (D-CPE) で構成される対比提案拡張 (CPE) を使用することにより、WSOD の新しい戦略を 1 つ提案します。各 D-CPE には、LSTM ネットワークに基づくエンコーダと対応するデコーダが含まれます。
まず、MIL の初期提案の境界は、適切に設計された順序に従ってさまざまな位置に拡張されます。
次に、CPE は、エンコーダーを使用してそれらの特徴セマンティクスを抽出することにより、拡張提案と初期提案を比較し、初期提案の完全性を計算して、初期提案のスコアを最適化します。
これらの対照的な文脈セマンティクスは、基本的な WSOD を導き、悪い提案を抑制し、良い提案のスコアを改善します。
さらに、LSTM の一時的なコーディングを制限し、WSOD のパフォーマンスをさらに向上させるために、単純な 2 ストリーム ネットワークがデコーダとして設計されています。
PASCAL VOC 2007、VOC 2012、および MS-COCO データセットでの実験は、私たちの方法が最先端の結果を達成したことを示しています。

要約(オリジナル)

Weakly supervised object detection (WSOD) has attracted more and more attention since it only uses image-level labels and can save huge annotation costs. Most of the WSOD methods use Multiple Instance Learning (MIL) as their basic framework, which regard it as an instance classification problem. However, these methods based on MIL tends to converge only on the most discriminate regions of different instances, rather than their corresponding complete regions, that is, insufficient integrity. Inspired by the habit of observing things by the human, we propose a new method by comparing the initial proposals and the extension ones to optimize those initial proposals. Specifically, we propose one new strategy for WSOD by involving contrastive proposal extension (CPE), which consists of multiple directional contrastive proposal extensions (D-CPE), and each D-CPE contains encoders based on LSTM network and corresponding decoders. Firstly, the boundary of initial proposals in MIL is extended to different positions according to well-designed sequential order. Then, CPE compares the extended proposal and the initial proposal by extracting the feature semantics of them using the encoders, and calculates the integrity of the initial proposal to optimize the score of the initial proposal. These contrastive contextual semantics will guide the basic WSOD to suppress bad proposals and improve the scores of good ones. In addition, a simple two-stream network is designed as the decoder to constrain the temporal coding of LSTM and improve the performance of WSOD further. Experiments on PASCAL VOC 2007, VOC 2012 and MS-COCO datasets show that our method has achieved the state-of-the-art results.

arxiv情報

著者 Pei Lv,Suqi Hu,Tianran Hao
発行日 2022-10-19 13:18:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク