Leveraging Swin Transformer for Local-to-Global Weakly Supervised Semantic Segmentation

要約

近年、画像レベルのラベルを監視として使用する弱監視セマンティック セグメンテーションが、コンピュータ ビジョンの分野で大きな注目を集めています。
既存の手法のほとんどは、クラス アクティベーション マップ (CAM) からの疑似ラベルの生成を通じて教師あり学習を促進することに重点を置くことで、これらのラベルの空間情報の欠如から生じる課題に対処しています。
畳み込みニューラル ネットワーク (CNN) の局所的なパターン検出により、CAM はオブジェクトの最も識別可能な部分のみを強調することが多く、前​​景のオブジェクトを相互および背景から正確に区別することが困難になります。
最近の研究では、ビジョン トランスフォーマー (ViT) 機能は、そのグローバル ビューにより、CNN よりもシーン レイアウトをキャプチャするのに効果的であることが示されています。
ただし、階層型 ViT の使用は、この分野では広く検討されていません。
この研究では、ローカル ビューとグローバル ビューを統合することで初期シード CAM の精度を向上させる「SWTformer」を提案することで、Swin Transformer の使用を検討しています。
SWTformer-V1 は、パッチ トークンのみを特徴として使用してクラス確率と CAM を生成します。
SWTformer-V2 には、追加情報を抽出するためのマルチスケール特徴融合メカニズムが組み込まれており、背景認識メカニズムを利用して、オブジェクト間の識別が改善されたより正確な位置特定マップを生成します。
PascalVOC 2012 データセットの実験に基づいて、SWTformer-V1 は 0.98% mAP 高い位置特定精度を達成し、最先端のモデルを上回ります。
また、分類ネットワークのみに依存して、初期位置推定マップを生成する際に他の方法よりも平均で 0.82% mIoU 高い、同等のパフォーマンスが得られます。
SWTformer-V2 は、生成されたシード CAM の精度を 5.32% mIoU 向上させ、Swin トランスフォーマーによって提供されるローカルからグローバルへのビューの有効性をさらに証明しています。

要約(オリジナル)

In recent years, weakly supervised semantic segmentation using image-level labels as supervision has received significant attention in the field of computer vision. Most existing methods have addressed the challenges arising from the lack of spatial information in these labels by focusing on facilitating supervised learning through the generation of pseudo-labels from class activation maps (CAMs). Due to the localized pattern detection of Convolutional Neural Networks (CNNs), CAMs often emphasize only the most discriminative parts of an object, making it challenging to accurately distinguish foreground objects from each other and the background. Recent studies have shown that Vision Transformer (ViT) features, due to their global view, are more effective in capturing the scene layout than CNNs. However, the use of hierarchical ViTs has not been extensively explored in this field. This work explores the use of Swin Transformer by proposing ‘SWTformer’ to enhance the accuracy of the initial seed CAMs by bringing local and global views together. SWTformer-V1 generates class probabilities and CAMs using only the patch tokens as features. SWTformer-V2 incorporates a multi-scale feature fusion mechanism to extract additional information and utilizes a background-aware mechanism to generate more accurate localization maps with improved cross-object discrimination. Based on experiments on the PascalVOC 2012 dataset, SWTformer-V1 achieves a 0.98% mAP higher localization accuracy, outperforming state-of-the-art models. It also yields comparable performance by 0.82% mIoU on average higher than other methods in generating initial localization maps, depending only on the classification network. SWTformer-V2 further improves the accuracy of the generated seed CAMs by 5.32% mIoU, further proving the effectiveness of the local-to-global view provided by the Swin transformer.

arxiv情報

著者 Rozhan Ahmadi,Shohreh Kasaei
発行日 2024-01-31 13:41:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV パーマリンク