Towards Generalizable Diabetic Retinopathy Grading in Unseen Domains

要約

糖尿病性網膜症(DR)は糖尿病の一般的な合併症であり、世界中で失明の主な原因となっています。
病気の管理には、早期かつ正確に重症度を評価することが重要です。
ディープラーニングは DR グレーディングの自動化に大きな可能性を示していますが、ドメイン汎化問題として知られるソース ドメインとターゲット ドメイン間の分布の変化により、現実世界への導入は依然として困難です。
既存の研究では、パフォーマンスの低下は主に、複雑な現実世界のシナリオを処理できない、単純な視覚的な不一致によって引き起こされる限られたドメインのシフトに起因するとされています。
その代わりに、視覚的および分解スタイルの変化、診断パターンの多様性、データの不均衡という 3 つの一般化問題の存在を示唆する予備的な証拠を提示します。
これらの問題に取り組むために、我々は、Generalizable Diabetic Retinopathy Grading Network (GDRNet) という名前の新しい統一フレームワークを提案します。
GDRNet は、眼底視覚アーチファクト拡張 (FundusAug)、動的ハイブリッド教師あり損失 (DahLoss)、およびドメインクラス認識再バランス (DCR) という 3 つの重要なコンポーネントで構成されています。
FundusAug は、視覚的変換と画像劣化を通じて現実的な拡張画像を生成します。一方、DahLoss は、ピクセルレベルの一貫性と画像レベルのセマンティクスを共同利用して、多様な診断パターンをキャプチャし、一般化可能な特徴表現を構築します。
さらに、DCR はドメインクラスの観点からデータの不均衡を軽減し、まれなドメインクラスのペアに対する望ましくない過度の強調を回避します。
最後に、公正な評価のために公開されているベンチマークを設計します。
先進的な方法との広範な比較実験と徹底的なアブレーション研究により、GDRNet の有効性と一般化能力が実証されています。

要約(オリジナル)

Diabetic Retinopathy (DR) is a common complication of diabetes and a leading cause of blindness worldwide. Early and accurate grading of its severity is crucial for disease management. Although deep learning has shown great potential for automated DR grading, its real-world deployment is still challenging due to distribution shifts among source and target domains, known as the domain generalization problem. Existing works have mainly attributed the performance degradation to limited domain shifts caused by simple visual discrepancies, which cannot handle complex real-world scenarios. Instead, we present preliminary evidence suggesting the existence of three-fold generalization issues: visual and degradation style shifts, diagnostic pattern diversity, and data imbalance. To tackle these issues, we propose a novel unified framework named Generalizable Diabetic Retinopathy Grading Network (GDRNet). GDRNet consists of three vital components: fundus visual-artifact augmentation (FundusAug), dynamic hybrid-supervised loss (DahLoss), and domain-class-aware re-balancing (DCR). FundusAug generates realistic augmented images via visual transformation and image degradation, while DahLoss jointly leverages pixel-level consistency and image-level semantics to capture the diverse diagnostic patterns and build generalizable feature representations. Moreover, DCR mitigates the data imbalance from a domain-class view and avoids undesired over-emphasis on rare domain-class pairs. Finally, we design a publicly available benchmark for fair evaluations. Extensive comparison experiments against advanced methods and exhaustive ablation studies demonstrate the effectiveness and generalization ability of GDRNet.

arxiv情報

著者 Haoxuan Che,Yuhan Cheng,Haibo Jin,Hao Chen
発行日 2023-07-21 09:13:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク