Attentional Triple-Encoder Network in Spatiospectral Domains for Medical Image Segmentation

要約

網膜の光コヒーレンス断層撮影(OCT)セグメンテーションは、病理を診断するために不可欠です。
従来の方法は、空間ドメインまたはスペクトルドメインのいずれかに焦点を当てており、それらの依存関係を組み合わせて見下ろしています。
空間機能にCNNを統合するトリプルエンコーダーネットワーク、スペクトル機能の高速フーリエ畳み込み(FFC)、および両方のドメイン全体でグローバルな関係をキャプチャするための注意メカニズムを提案します。
注意融合モジュールは、畳み込みと交差に関する統合を統合して、機能をさらに強化します。
私たちの方法は、0.855から0.864への平均DICEスコアの改善を達成し、以前の作業よりも優れています。

要約(オリジナル)

Retinal Optical Coherence Tomography (OCT) segmentation is essential for diagnosing pathology. Traditional methods focus on either spatial or spectral domains, overlooking their combined dependencies. We propose a triple-encoder network that integrates CNNs for spatial features, Fast Fourier Convolution (FFC) for spectral features, and attention mechanisms to capture global relationships across both domains. Attention fusion modules integrate convolution and cross-attention to further enhance features. Our method achieves an average Dice score improvement from 0.855 to 0.864, outperforming prior work.

arxiv情報

著者 Kristin Qi,Xinhan Di
発行日 2025-03-20 17:49:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CV, eess.IV パーマリンク