Toward Clinically Assisted Colorectal Polyp Recognition via Structured Cross-modal Representation Consistency

要約

結腸直腸ポリープの分類は重要な臨床検査です。
分類の精度を向上させるために、ほとんどのコンピューター支援診断アルゴリズムは、狭帯域光観察(NBI)を採用することによって結腸直腸ポリープを認識します。
ただし、この特定の画像を取得するには、白色光(WL)画像を使用してポリープが検出された場合、光モードを手動で切り替える必要があるため、NBIは通常実際の診療所のシナリオで利用できないという問題があります。
上記の状況を回避するために、構造化されたクロスモーダル表現の一貫性を実行することにより、正確な白色光結腸内視鏡画像分類を直接達成するための新しい方法を提案します。
実際には、マルチモーダル画像のペア、つまりNBIとWLが共有トランスフォーマーに供給され、階層的な特徴表現が抽出されます。
次に、新しい設計の空間注意モジュール(SAM)を採用して、特定のモダリティ画像のマルチレベルからクラストークンとパッチトークンの類似性を計算します。
ペアのNBIおよびWL画像のクラストークンと空間アテンションマップを異なるレベルで整列させることにより、Transformerは、上記の2つのモダリティのグローバル表現とローカル表現の両方の一貫性を維持する機能を実現します。
広範な実験結果は、提案された方法が最近の研究をわずかに上回り、単一のトランスフォーマーでマルチモーダル予測を実現し、WL画像のみの場合の分類精度を大幅に向上させることを示しています。

要約(オリジナル)

The colorectal polyps classification is a critical clinical examination. To improve the classification accuracy, most computer-aided diagnosis algorithms recognize colorectal polyps by adopting Narrow-Band Imaging (NBI). However, the NBI usually suffers from missing utilization in real clinic scenarios since the acquisition of this specific image requires manual switching of the light mode when polyps have been detected by using White-Light (WL) images. To avoid the above situation, we propose a novel method to directly achieve accurate white-light colonoscopy image classification by conducting structured cross-modal representation consistency. In practice, a pair of multi-modal images, i.e. NBI and WL, are fed into a shared Transformer to extract hierarchical feature representations. Then a novel designed Spatial Attention Module (SAM) is adopted to calculate the similarities between the class token and patch tokens %from multi-levels for a specific modality image. By aligning the class tokens and spatial attention maps of paired NBI and WL images at different levels, the Transformer achieves the ability to keep both global and local representation consistency for the above two modalities. Extensive experimental results illustrate the proposed method outperforms the recent studies with a margin, realizing multi-modal prediction with a single Transformer while greatly improving the classification accuracy when only with WL images.

arxiv情報

著者 Weijie Ma,Ye Zhu,Ruimao Zhang,Jie Yang,Yiwen Hu,Zhen Li,Li Xiang
発行日 2022-06-24 15:43:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク