要約
空間的な注意のメカニズムは、長距離依存性の捕捉を介して深層畳み込みニューラルネットワーク(CNN)に広く組み込まれており、コンピュータビジョンにおける性能を大幅に引き上げているが、医療画像では性能が低い可能性がある。残念ながら、既存の取り組みでは、長距離依存性キャプチャには微妙な病変領域を強調する限界があることを認識していないことが多く、CNNの表現能力を向上させるためのマルチスケール画素コンテキスト情報の可能性を利用することがおろそかである。本論文では、マルチスケール画素コンテキスト情報を利用して、画素に依存しない方法で画素位置を適応的に再調整する、実用的かつ軽量なアーキテクチャユニット、Pyramid Pixel Context Recalibration (PPCR) モジュールを提案します。PPCRは、まずマルチスケールのピクセルコンテキスト情報を集約するためにクロスチャネルピラミッドプーリングを設計し、次にうまく設計されたピクセル正規化によってそれらの間の不整合を排除し、最後にピクセルコンテキスト統合によってピクセルごとの注目の重みを推定します。PPCRは、最新のCNNに柔軟に組み込むことができ、オーバーヘッドを無視することができる。5つの医療画像データセットとCIFARベンチマークを用いた広範な実験により、PPCRが最先端の注目手法よりも優れており、一般化されていることを実証的に示している。詳細な分析により、意思決定プロセスにおけるPPCRの固有の挙動を説明し、CNNの解釈可能性を向上させる。
要約(オリジナル)
Spatial attention mechanism has been widely incorporated into deep convolutional neural networks (CNNs) via long-range dependency capturing, significantly lifting the performance in computer vision, but it may perform poorly in medical imaging. Unfortunately, existing efforts are often unaware that long-range dependency capturing has limitations in highlighting subtle lesion regions, neglecting to exploit the potential of multi-scale pixel context information to improve the representational capability of CNNs. In this paper, we propose a practical yet lightweight architectural unit, Pyramid Pixel Context Recalibration (PPCR) module, which exploits multi-scale pixel context information to recalibrate pixel position in a pixel-independent manner adaptively. PPCR first designs a cross-channel pyramid pooling to aggregate multi-scale pixel context information, then eliminates the inconsistency among them by the well-designed pixel normalization, and finally estimates per pixel attention weight via a pixel context integration. PPCR can be flexibly plugged into modern CNNs with negligible overhead. Extensive experiments on five medical image datasets and CIFAR benchmarks empirically demonstrate the superiority and generalization of PPCR over state-of-the-art attention methods. The in-depth analyses explain the inherent behavior of PPCR in the decision-making process, improving the interpretability of CNNs.
arxiv情報
著者 | Xiaoqing Zhangand Zunjie Xiao,Xiao Wu,Jiansheng Fang,Junyong Shen,Yan Hu,Risa Higashita,Jiang Liu |
発行日 | 2023-03-03 13:36:55+00:00 |
arxivサイト | arxiv_id(pdf) |