HiFiSeg: High-Frequency Information Enhanced Polyp Segmentation with Global-Local Vision Transformer

要約

様々なコンピュータビジョンタスクにおいて、Vision Transformer(ViT)ベースの手法が高い性能を発揮することは、数多くの研究によって実証されている。しかし、ViTモデルは、特に複雑なシナリオにおいて、小さなターゲットを検出し、エッジの詳細を保持するために重要である、画像中の高周波数成分を効果的に捕捉するのに苦労することが多い。この限界は、大腸ポリープのセグメンテーションにおいて特に困難である。このような状況において、正確なセマンティックセグメンテーションを達成するためには、境界の詳細のような高周波の情報が不可欠である。このような課題に対処するため、我々は大腸ポリープのセグメンテーションのための新しいネットワークであるHiFiSegを提案する。HiFiSegは、グローバル-ローカル視覚変換フレームワークにより高周波数情報処理を強化する。HiFiSegは、ピラミッドビジョントランスフォーマー(PVT)をエンコーダーとして活用し、グローバル-ローカル相互作用モジュール(GLIM)と選択的集約モジュール(SAM)という2つの重要なモジュールを導入している。GLIMは並列構造を採用し、複数のスケールでグローバル情報とローカル情報を融合し、きめ細かい特徴を効果的に捉える。SAMは、低レベルの特徴から得られる境界の詳細と高レベルの特徴から得られる意味情報を選択的に統合し、ポリープを正確に検出してセグメント化するモデルの能力を大幅に向上させる。広く認識されている5つのベンチマークデータセットを用いた広範な実験により、ポリープのセグメンテーションにおけるHiFiSegの有効性が実証された。特に、難易度の高いCVC-ColonDBデータセットとETISデータセットのmDiceスコアは、それぞれ0.826と0.822に達し、このタスク特有の複雑性を処理するHiFiSegの優れた性能を強調しています。

要約(オリジナル)

Numerous studies have demonstrated the strong performance of Vision Transformer (ViT)-based methods across various computer vision tasks. However, ViT models often struggle to effectively capture high-frequency components in images, which are crucial for detecting small targets and preserving edge details, especially in complex scenarios. This limitation is particularly challenging in colon polyp segmentation, where polyps exhibit significant variability in structure, texture, and shape. High-frequency information, such as boundary details, is essential for achieving precise semantic segmentation in this context. To address these challenges, we propose HiFiSeg, a novel network for colon polyp segmentation that enhances high-frequency information processing through a global-local vision transformer framework. HiFiSeg leverages the pyramid vision transformer (PVT) as its encoder and introduces two key modules: the global-local interaction module (GLIM) and the selective aggregation module (SAM). GLIM employs a parallel structure to fuse global and local information at multiple scales, effectively capturing fine-grained features. SAM selectively integrates boundary details from low-level features with semantic information from high-level features, significantly improving the model’s ability to accurately detect and segment polyps. Extensive experiments on five widely recognized benchmark datasets demonstrate the effectiveness of HiFiSeg for polyp segmentation. Notably, the mDice scores on the challenging CVC-ColonDB and ETIS datasets reached 0.826 and 0.822, respectively, underscoring the superior performance of HiFiSeg in handling the specific complexities of this task.

arxiv情報

著者 Jingjing Ren,Xiaoyong Zhang,Lina Zhang
発行日 2024-10-03 14:36:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV パーマリンク