ColonFormer: An Efficient Transformer based Method for Colon Polyp Segmentation

要約

ポリープの識別は、コンピュータ支援型臨床支援システムにおける内視鏡画像の自動解析の課題である。これまで,畳み込みネットワーク(CNN),変換器,およびそれらの組み合わせに基づくモデルが提案され,有望な結果を得ている.しかし、これらのアプローチは、ポリープの局所的な外観のみをモデル化しているか、デコーディングプロセスにおける空間依存性のための多階層特徴を欠いているという限界がある。本論文では、これらの限界に対処するために、新しいネットワーク、すなわちColonFormerを提案する。ColonFormerは、エンコーダとデコーダの両枝で長距離の意味情報をモデル化できるエンコーダ・デコーダのアーキテクチャである。エンコーダは、マルチスケールでグローバルな意味関係をモデル化するための変換器をベースとした軽量なアーキテクチャである。デコーダは、特徴表現を豊かにするために、多階層の特徴を学習するように設計された階層的なネットワーク構造である。さらに、正確なセグメンテーションのために、グローバルマップのポリプオブジェクトの境界を洗練させる、新しいスキップ接続技術を用いた洗練モジュールが追加されている。Kvasir, CVC-Clinic DB, CVC-ColonDB, CVC-T, ETIS-Laribの5つのポリープセグメンテーションのベンチマークデータセットに対して広範な実験が行われた。実験の結果、我々のColonFormerは全てのベンチマークデータセットにおいて、他の最先端手法を凌駕することが示された。

要約(オリジナル)

Identifying polyps is challenging for automatic analysis of endoscopic images in computer-aided clinical support systems. Models based on convolutional networks (CNN), transformers, and their combinations have been proposed to segment polyps with promising results. However, those approaches have limitations either in modeling the local appearance of the polyps only or lack of multi-level features for spatial dependency in the decoding process. This paper proposes a novel network, namely ColonFormer, to address these limitations. ColonFormer is an encoder-decoder architecture capable of modeling long-range semantic information at both encoder and decoder branches. The encoder is a lightweight architecture based on transformers for modeling global semantic relations at multi scales. The decoder is a hierarchical network structure designed for learning multi-level features to enrich feature representation. Besides, a refinement module is added with a new skip connection technique to refine the boundary of polyp objects in the global map for accurate segmentation. Extensive experiments have been conducted on five popular benchmark datasets for polyp segmentation, including Kvasir, CVC-Clinic DB, CVC-ColonDB, CVC-T, and ETIS-Larib. Experimental results show that our ColonFormer outperforms other state-of-the-art methods on all benchmark datasets.

arxiv情報

著者 Nguyen Thanh Duc,Nguyen Thi Oanh,Nguyen Thi Thuy,Tran Minh Triet,Dinh Viet Sang
発行日 2022-06-07 14:23:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク