要約
弱く監視されたオブジェクトローカリゼーション(WSOL)メソッドにより、トレーニングモデルは画像を分類し、ROIをローカライズできます。
WSOLは、低コストの画像クラスの注釈のみを必要としますが、視覚的に解釈可能な分類器を提供します。これは、組織学の画像分析で重要です。
標準のWSOLメソッドは、クラスアクティベーションマッピング(CAM)メソッドに依存して、単一または2段階の戦略に従って空間ローカリゼーションマップを作成します。
両方の戦略は大きな進歩を遂げましたが、彼らはまだ組織学の画像でいくつかの制限に直面しています。
シングルステップの方法は、組織学の画像の視覚的ROIの顕著性が限られているため、局所化のキューが限られているため、簡単に過小または過剰活性化をもたらす可能性があります。
彼らはまた、分類とローカリゼーションのタスクの間の非同期収束のよく知られている問題に直面しています。
2段階のアプローチは、凍結分類器に結び付けられており、ローカリゼーションの能力を制限するため、最適ではありません。
さらに、これらの方法は、分散除外(OOD)データセットに適用される場合にも苦労しています。
この論文では、非同期収束問題に対処するための両方のタスクの同時トレーニングのために、WSOLのマルチタスクアプローチを導入します。
特に、ローカリゼーションは、分類と共有される画像エンコーダーのピクセルフィーチャー空間で実行されます。
これにより、ROIのローカリゼーションと画像分類をサポートするために、前景色/バックグラウンド領域の特定の特徴と正確な描写を学習することができます。
Pixelcamは、空間オブジェクトのローカリゼーションを可能にするPixel-Featureスペースにおける費用対効果の高い前景/背景ピクセルごとの分類器を提案します。
Pixelcamは、前提条件のWSOLモデルから収集されたPixel Pseudo-Labelsを使用してトレーニングされています。
画像とピクセルごとの両方の分類器は、標準勾配降下を使用して同時にトレーニングされます。
さらに、ピクセル分類器を、変更せずにCNNおよびトランスベースのアーキテクチャに簡単に統合できます。
要約(オリジナル)
Weakly supervised object localization (WSOL) methods allow training models to classify images and localize ROIs. WSOL only requires low-cost image-class annotations yet provides a visually interpretable classifier, which is important in histology image analysis. Standard WSOL methods rely on class activation mapping (CAM) methods to produce spatial localization maps according to a single- or two-step strategy. While both strategies have made significant progress, they still face several limitations with histology images. Single-step methods can easily result in under- or over-activation due to the limited visual ROI saliency in histology images and the limited localization cues. They also face the well-known issue of asynchronous convergence between classification and localization tasks. The two-step approach is sub-optimal because it is tied to a frozen classifier, limiting the capacity for localization. Moreover, these methods also struggle when applied to out-of-distribution (OOD) datasets. In this paper, a multi-task approach for WSOL is introduced for simultaneous training of both tasks to address the asynchronous convergence problem. In particular, localization is performed in the pixel-feature space of an image encoder that is shared with classification. This allows learning discriminant features and accurate delineation of foreground/background regions to support ROI localization and image classification. We propose PixelCAM, a cost-effective foreground/background pixel-wise classifier in the pixel-feature space that allows for spatial object localization. PixelCAM is trained using pixel pseudo-labels collected from a pretrained WSOL model. Both image and pixel-wise classifiers are trained simultaneously using standard gradient descent. In addition, our pixel classifier can easily be integrated into CNN- and transformer-based architectures without any modifications.
arxiv情報
著者 | Alexis Guichemerre,Soufiane Belharbi,Mohammadhadi Shateri,Luke McCaffrey,Eric Granger |
発行日 | 2025-03-31 14:18:01+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google