PPCR: Learning Pyramid Pixel Context Recalibration Module for Medical Image Classification

要約

空間的注意メカニズムは、長距離依存性キャプチャを介してディープ畳み込みニューラル ネットワーク (CNN) に広く組み込まれており、コンピューター ビジョンのパフォーマンスを大幅に向上させていますが、医療画像処理ではパフォーマンスが低下する可能性があります。
残念ながら、既存の取り組みでは、長距離の依存関係のキャプチャが微妙な病変領域を強調表示する際に制限があることを認識していないことが多く、CNN の表現能力を向上させるマルチスケール ピクセル コンテキスト情報の可能性を活用することを怠っています。
この論文では、実用的でありながら軽量なアーキテクチャユニットである Pyramid Pixel Context Recalibration (PPCR) モジュールを提案します。これは、マルチスケール ピクセル コンテキスト情報を利用して、ピクセルに依存しない方法でピクセル位置を適応的に再調整します。
PPCR は、最初にクロスチャネル ピラミッド プーリングを設計してマルチスケール ピクセル コンテキスト情報を集約し、次に適切に設計されたピクセル正規化によってそれらの間の矛盾を排除し、最後にピクセル コンテキスト統合によってピクセルごとのアテンション ウェイトを推定します。
PPCR は、ごくわずかなオーバーヘッドで最新の CNN に柔軟にプラグインできます。
5 つの医用画像データセットと CIFAR ベンチマークに関する広範な実験により、最先端の注意方法に対する PPCR の優位性と一般化が実証されています。
詳細な分析により、意思決定プロセスにおける PPCR の固有の動作が説明され、CNN の解釈可能性が向上します。

要約(オリジナル)

Spatial attention mechanism has been widely incorporated into deep convolutional neural networks (CNNs) via long-range dependency capturing, significantly lifting the performance in computer vision, but it may perform poorly in medical imaging. Unfortunately, existing efforts are often unaware that long-range dependency capturing has limitations in highlighting subtle lesion regions, neglecting to exploit the potential of multi-scale pixel context information to improve the representational capability of CNNs. In this paper, we propose a practical yet lightweight architectural unit, Pyramid Pixel Context Recalibration (PPCR) module, which exploits multi-scale pixel context information to recalibrate pixel position in a pixel-independent manner adaptively. PPCR first designs a cross-channel pyramid pooling to aggregate multi-scale pixel context information, then eliminates the inconsistency among them by the well-designed pixel normalization, and finally estimates per pixel attention weight via a pixel context integration. PPCR can be flexibly plugged into modern CNNs with negligible overhead. Extensive experiments on five medical image datasets and CIFAR benchmarks empirically demonstrate the superiority and generalization of PPCR over state-of-the-art attention methods. The in-depth analyses explain the inherent behavior of PPCR in the decision-making process, improving the interpretability of CNNs.

arxiv情報

著者 Xiaoqing Zhang,Zunjie Xiao,Xiao Wu,Jiansheng Fang,Junyong Shen,Yan Hu,Risa Higashita,Jiang Liu
発行日 2023-03-10 12:14:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク