Polyp-PVT: Polyp Segmentation with Pyramid Vision Transformers

要約

タイトル:Pyramid Vision Transformersを用いたポリープセグメンテーション(Polyp-PVT)

要約:
– ポリープセグメンテーション方法のほとんどは、エンコーダーとデコーダー間で情報を交換する際に、異なるレベルの特徴の貢献度の差を考慮することと、これらの特徴を効果的に融合するためのメカニズムを設計することという2つの主要な課題がある。
– 既存のCNNベースの手法とは異なり、より強力かつ堅牢な表現を学習するために、トランスフォーマーエンコーダーを採用する。
– また、ポリープの画像取得の影響や不明瞭な特性を考慮して、cascaded fusion module (CFM)、camouflage identification module (CIM)、similarity aggregation module (SAM)の3つの標準モジュールを導入する。
– これらのうち、CFMは高レベル特徴からポリープの意味と位置情報を収集するために使用され、CIMは低レベル特徴に偽装されたポリープ情報を捕捉するために適用され、SAMは高レベルの意味的位置情報を持つピクセル特徴をポリープ領域全体に拡張することで、クロスレベル特徴を効果的に融合する。
– 提案されたPolyp-PVTモデルは、特徴のノイズを効果的に抑制し、その表現能力を大幅に改善することができる。
– 5つの広く採用されているデータセットでの広範な実験により、提案されたモデルは、外観変化、小さなオブジェクト、回転など、さまざまな困難な状況において、既存の代表的な手法よりも堅牢であることが示された。
– 提案されたモデルは、https://github.com/DengPingFan/Polyp-PVTで利用可能です。

要約(オリジナル)

Most polyp segmentation methods use CNNs as their backbone, leading to two key issues when exchanging information between the encoder and decoder: 1) taking into account the differences in contribution between different-level features and 2) designing an effective mechanism for fusing these features. Unlike existing CNN-based methods, we adopt a transformer encoder, which learns more powerful and robust representations. In addition, considering the image acquisition influence and elusive properties of polyps, we introduce three standard modules, including a cascaded fusion module (CFM), a camouflage identification module (CIM), and a similarity aggregation module (SAM). Among these, the CFM is used to collect the semantic and location information of polyps from high-level features; the CIM is applied to capture polyp information disguised in low-level features, and the SAM extends the pixel features of the polyp area with high-level semantic position information to the entire polyp area, thereby effectively fusing cross-level features. The proposed model, named Polyp-PVT, effectively suppresses noises in the features and significantly improves their expressive capabilities. Extensive experiments on five widely adopted datasets show that the proposed model is more robust to various challenging situations (\emph{e.g.}, appearance changes, small objects, rotation) than existing representative methods. The proposed model is available at https://github.com/DengPingFan/Polyp-PVT.

arxiv情報

著者 Bo Dong,Wenhai Wang,Deng-Ping Fan,Jinpeng Li,Huazhu Fu,Ling Shao
発行日 2023-04-26 03:42:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CV, eess.IV パーマリンク