要約
画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的とする Weakly Supervised Object Localization (WSOL) は、実際のアプリケーションでのアノテーション コストが低いため、多くの注目を集めています。
最近の研究では、従来のクラス アクティベーション マッピング (CAM) における部分的なアクティベーションを回避することを目的として、ビジュアル トランスフォーマーの自己注意の利点を活用して、リアクティブ セマンティック領域への長距離依存を実現しています。
ただし、Transformer の長距離モデリングでは、オブジェクト固有の空間的コヒーレンスが無視され、通常、セマンティック認識領域がオブジェクトの境界から遠く離れて拡散し、ローカリゼーションの結果が大幅に大きくなったり小さくなったりします。
このような問題に対処するために、正確な WSOL のためのシンプルで効果的な空間キャリブレーション モジュール (SCM) を導入し、パッチ トークンの意味的類似性とそれらの空間的関係を統一された拡散モデルに組み込みます。
具体的には、学習可能なパラメーターを導入して、効果的な情報伝達のために意味相関と空間コンテキスト強度を動的に調整します。
実際には、SCM は Transformer の外部モジュールとして設計されており、推論中に削除して計算コストを削減できます。
オブジェクト センシティブなローカリゼーション機能は、トレーニング フェーズでの最適化を通じて暗黙的に Transformer エンコーダーに組み込まれます。
生成されたアテンション マップは、より鮮明なオブジェクトの境界をキャプチャし、オブジェクトに関係のない背景領域をフィルタリングできます。
広範な実験結果は、提案された方法の有効性を示しています。これは、CUB-200 および ImageNet-1K ベンチマークの両方で、対応する TS-CAM よりも大幅に優れています。
コードは https://github.com/164140757/SCM で入手できます。
要約(オリジナル)
Weakly Supervised Object Localization (WSOL), which aims to localize objects by only using image-level labels, has attracted much attention because of its low annotation cost in real applications. Recent studies leverage the advantage of self-attention in visual Transformer for long-range dependency to re-active semantic regions, aiming to avoid partial activation in traditional class activation mapping (CAM). However, the long-range modeling in Transformer neglects the inherent spatial coherence of the object, and it usually diffuses the semantic-aware regions far from the object boundary, making localization results significantly larger or far smaller. To address such an issue, we introduce a simple yet effective Spatial Calibration Module (SCM) for accurate WSOL, incorporating semantic similarities of patch tokens and their spatial relationships into a unified diffusion model. Specifically, we introduce a learnable parameter to dynamically adjust the semantic correlations and spatial context intensities for effective information propagation. In practice, SCM is designed as an external module of Transformer, and can be removed during inference to reduce the computation cost. The object-sensitive localization ability is implicitly embedded into the Transformer encoder through optimization in the training phase. It enables the generated attention maps to capture the sharper object boundaries and filter the object-irrelevant background area. Extensive experimental results demonstrate the effectiveness of the proposed method, which significantly outperforms its counterpart TS-CAM on both CUB-200 and ImageNet-1K benchmarks. The code is available at https://github.com/164140757/SCM.
arxiv情報
著者 | Haotian Bai,Ruimao Zhang,Jiong Wang,Xiang Wan |
発行日 | 2023-03-10 09:53:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google