Bilateral-Fuser: A Novel Multi-cue Fusion Architecture with Anatomical-aware Tokens for Fovea Localization

要約

窩洞の正確な位置特定は、不可逆的な視力低下を防ぐのに役立つため、網膜疾患の解析における重要な初期ステップである。現在の深層学習ベースの手法は、従来の手法よりも優れた性能を達成しているが、解剖学的ランドマークの不十分な利用、病気の網膜画像に対する感度、様々な画像条件などの課題を抱えている。本論文では、マルチキューフュージョンのための新しいトランスフォーマーベースのアーキテクチャ(Bilateral-Fuser)を提案する。Bilateral-Fuserは、ロバストな窩洞定位を達成するために、網膜と血管の分布を用いた長距離接続とグローバルな特徴を明示的に取り込む。また、デュアルストリームエンコーダーに空間的な注意メカニズムを導入し、自己学習した解剖学的情報を抽出・融合させる。この設計は、血管に沿って分布する特徴により焦点を当て、トークン数を減らすことで計算コストを大幅に削減する。我々の包括的な実験により、提案されたアーキテクチャは、2つのパブリックデータセットと1つの大規模プライベートデータセットにおいて、最先端の性能を達成することが実証された。さらに、Bilateral-Fuserは正常な網膜画像と病気の網膜画像の両方に対してより堅牢であり、データセット横断実験においてより優れた汎化能力を持つことを示す。

要約(オリジナル)

Accurate localization of the fovea is a crucial initial step in analyzing retinal diseases since it helps prevent irreversible vision loss. Although current deep learning-based methods achieve better performance than traditional methods, they still face challenges such as inadequate utilization of anatomical landmarks, sensitivity to diseased retinal images, and various image conditions. In this paper, we propose a novel transformer-based architecture (Bilateral-Fuser) for multi-cue fusion. The Bilateral-Fuser explicitly incorporates long-range connections and global features using retina and vessel distributions to achieve robust fovea localization. We introduce a spatial attention mechanism in the dual-stream encoder to extract and fuse self-learned anatomical information. This design focuses more on features distributed along blood vessels and significantly reduces computational costs by reducing token numbers. Our comprehensive experiments demonstrate that the proposed architecture achieves state-of-the-art performance on two public datasets and one large-scale private dataset. Moreover, we show that the Bilateral-Fuser is more robust on both normal and diseased retina images and has better generalization capacity in cross-dataset experiments.

arxiv情報

著者 Sifan Song,Jinfeng Wang,Zilong Wang,Shaopeng Wang,Jionglong Su,Xiaowei Ding,Kang Dang
発行日 2023-03-06 09:01:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク