CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection

要約

特徴ピラミッドは、医療画像のセグメンテーションや物体検出などのタスクのための畳み込みニューラル ネットワーク (CNN) やトランスフォーマーで広く採用されています。
ただし、現在存在するモデルは一般に、エンコーダー側のトランスフォーマーに焦点を当てて機能を抽出しており、そこからデコーダーを改善することで、適切に設計されたアーキテクチャーによりさらなる可能性をもたらすことができます。
特徴ピラミッドとトランスフォーマーを統合した新しいデコーダー ブロックである CFPFormer を提案します。
具体的には、CFPFormer は、パッチの埋め込み、クロスレイヤーの特徴連結、ガウス アテンション メカニズムを活用することで、特徴抽出機能を強化しながら、さまざまなタスクにわたる一般化を促進します。
トランス構造と U 字型接続の恩恵を受けて、導入されたモデルは、長距離の依存関係をキャプチャし、特徴マップを効果的にアップサンプリングする機能を獲得しました。
私たちのモデルは、既存の方法と比較して小さな物体の検出において優れた性能を実現します。
私たちは医療画像セグメンテーション データセットと物体検出ベンチマーク (VOC 2007、VOC2012、MS-COCO) に基づいて CFPFormer を評価し、その有効性と多用途性を実証します。
ACDC Post-2017-MICCAI-Challenge オンライン テスト セットでは、私たちのモデルは非常に優れた精度に達し、Synapse 多臓器セグメンテーション データセットの元のデコーダー設定と比較して良好なパフォーマンスを示しました。

要約(オリジナル)

Feature pyramids have been widely adopted in convolutional neural networks (CNNs) and transformers for tasks like medical image segmentation and object detection. However, the currently existing models generally focus on the Encoder-side Transformer to extract features, from which decoder improvement can bring further potential with well-designed architecture. We propose CFPFormer, a novel decoder block that integrates feature pyramids and transformers. Specifically, by leveraging patch embedding, cross-layer feature concatenation, and Gaussian attention mechanisms, CFPFormer enhances feature extraction capabilities while promoting generalization across diverse tasks. Benefiting from Transformer structure and U-shaped Connections, our introduced model gains the ability to capture long-range dependencies and effectively up-sample feature maps. Our model achieves superior performance in detecting small objects compared to existing methods. We evaluate CFPFormer on medical image segmentation datasets and object detection benchmarks (VOC 2007, VOC2012, MS-COCO), demonstrating its effectiveness and versatility. On the ACDC Post-2017-MICCAI-Challenge online test set, our model reaches exceptionally impressive accuracy, and performed well compared with the original decoder setting in Synapse multi-organ segmentation dataset.

arxiv情報

著者 Hongyi Cai,Mohammad Mahdinur Rahman,Jingyu Wu,Yulun Deng
発行日 2024-04-23 18:46:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク