Further Improving Weakly-supervised Object Localization via Causal Knowledge Distillation

要約

弱教師付きオブジェクトローカライゼーションは,画像レベルのラベルのみから,画像中のオブジェクトのカテゴリと範囲を示すことを目的とする.多くの既存研究は、クラス活性化マッピング(CAM)に基づいており、物体全体を認識するために活性化マップ内の識別領域を拡大しようとするが、物体と文脈(例えば、魚と水)の共起関係を無視し、物体境界を識別するモデル検査を難しくしている。また、CAMの使用は、分類と定位が常に性能差に悩まされ、同時に最高精度に到達できないというジレンマ問題をもたらす。本論文では、KD-CI-CAMと呼ばれるカジュアルな知識抽出法を提案し、これら2つの未解決の問題を一度に解決する。具体的には、クラス活性化マップにおける偏ったオブジェクトとコンテキストのもつれを除去するために、画像特徴、コンテキスト、カテゴリ間の因果関係を探索する因果的介入(CI)を通じて、共起コンテキスト交絡の問題に取り組む。さらに、この偏りのない物体特徴に基づき、モデル学習時に分類知識と局所化知識の吸収のバランスをとるために、複数教師による因果関係蒸留の枠組みを提案する。いくつかのベンチマークを用いた広範な実験により、KD-CI-CAMが、交錯するコンテキストから明確なオブジェクト境界を学習し、分類性能とローカライズ性能の間のジレンマ問題に対処することの有効性を実証する。

要約(オリジナル)

Weakly-supervised object localization aims to indicate the category as well as the scope of an object in an image given only the image-level labels. Most of the existing works are based on Class Activation Mapping (CAM) and endeavor to enlarge the discriminative area inside the activation map to perceive the whole object, yet ignore the co-occurrence confounder of the object and context (e.g., fish and water), which makes the model inspection hard to distinguish object boundaries. Besides, the use of CAM also brings a dilemma problem that the classification and localization always suffer from a performance gap and can not reach their highest accuracy simultaneously. In this paper, we propose a casual knowledge distillation method, dubbed KD-CI-CAM, to address these two under-explored issues in one go. More specifically, we tackle the co-occurrence context confounder problem via causal intervention (CI), which explores the causalities among image features, contexts, and categories to eliminate the biased object-context entanglement in the class activation maps. Based on the de-biased object feature, we additionally propose a multi-teacher causal distillation framework to balance the absorption of classification knowledge and localization knowledge during model training. Extensive experiments on several benchmarks demonstrate the effectiveness of KD-CI-CAM in learning clear object boundaries from confounding contexts and addressing the dilemma problem between classification and localization performance.

arxiv情報

著者 Feifei Shao,Yawei Luo,Shengjian Wu,Qiyi Li,Fei Gao,Yi Yang,Jun Xiao
発行日 2023-01-03 12:02:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク