要約
眼底画像の正確なセグメンテーションには高解像度が不可欠ですが、高解像度の入力を処理するとかなりの GPU メモリ コストが発生し、オーバーヘッドが増加するにつれてパフォーマンスの向上が減少します。
小さなオブジェクトをセグメント化するという課題に取り組みながらこの問題に対処するために、最近の研究ではローカルとグローバルの融合手法が検討されています。
これらの方法では、ローカル領域を使用して詳細を保存し、ダウンスケールされたグローバル画像から長距離のコンテキスト情報をキャプチャします。
ただし、複数の前方パスが必要になると、必然的に大幅な計算オーバーヘッドが発生し、推論速度に悪影響を及ぼします。
この論文では、眼底病変セグメンテーションのためのシンプルな高解像度デコーダ ネットワークである HRDecoder を提案します。
きめの細かい局所特徴を捕捉する高解像度表現学習モジュールと、マルチスケール予測を融合する高解像度融合モジュールが統合されています。
私たちの方法は、適切なメモリと計算オーバーヘッドを消費し、満足のいく推論速度を維持しながら、眼底病変の全体的なセグメンテーション精度を効果的に向上させます。
IDRID および DDR データセットに関する実験結果は、私たちの方法の有効性を示しています。
コードは https://github.com/CVIU-CSU/HRDecoder で入手できます。
要約(オリジナル)
High resolution is crucial for precise segmentation in fundus images, yet handling high-resolution inputs incurs considerable GPU memory costs, with diminishing performance gains as overhead increases. To address this issue while tackling the challenge of segmenting tiny objects, recent studies have explored local-global fusion methods. These methods preserve fine details using local regions and capture long-range context information from downscaled global images. However, the necessity of multiple forward passes inevitably incurs significant computational overhead, adversely affecting inference speed. In this paper, we propose HRDecoder, a simple High-Resolution Decoder network for fundus lesion segmentation. It integrates a high-resolution representation learning module to capture fine-grained local features and a high-resolution fusion module to fuse multi-scale predictions. Our method effectively improves the overall segmentation accuracy of fundus lesions while consuming reasonable memory and computational overhead, and maintaining satisfying inference speed. Experimental results on the IDRID and DDR datasets demonstrate the effectiveness of our method. Code is available at https://github.com/CVIU-CSU/HRDecoder.
arxiv情報
著者 | Ziyuan Ding,Yixiong Liang,Shichao Kan,Qing Liu |
発行日 | 2024-11-06 15:13:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google