Controllable retinal image synthesis using conditional StyleGAN and latent space manipulation for improved diagnosis and grading of diabetic retinopathy

要約

糖尿病性網膜症 (DR) は、網膜組織内の血管損傷を特徴とする糖尿病の結果です。
視力喪失のリスクを軽減するには、タイムリーな検出が最も重要です。
ただし、堅牢なグレーディング モデルのトレーニングは、特に重篤なケースの場合、注釈付きデータの不足によって妨げられます。
この論文では、高忠実度で多様な DR 眼底画像を制御可能に生成するためのフレームワークを提案し、それによって DR のグレーディングと検出における分類器のパフォーマンスを向上させます。
条件付き StyleGAN のみを使用して、生成された画像内の DR 重症度および視覚的特徴 (視神経乳頭、血管構造、病変領域) の包括的な制御を実現し、特徴マスクや補助ネットワークの必要性を排除します。
具体的には、SeFa アルゴリズムを活用して潜在空間内の意味のあるセマンティクスを特定し、グレードに応じて条件付きで生成された DR 画像を操作し、データセットの多様性をさらに強化します。
さらに、新規で効果的な SeFa ベースのデータ拡張戦略を提案し、分類器が冗長な特徴を無視しながら識別領域に焦点を当てるのを支援します。
このアプローチを使用すると、DR 検出用にトレーニングされた ResNet50 モデルは、精度 98.09%、特異度 99.44%、精度 99.45%、F1 スコア 98.09% を達成します。
さらに、条件付き StyleGAN によって生成された合成画像を DR グレーディング用の ResNet50 トレーニングに組み込むと、精度 83.33%、二次カッパ スコア 87.64%、特異度 95.67%、精度 72.24% が得られます。
APTOS 2019 データセットに対して行われた広範な実験により、生成された画像の卓越したリアリズムと、最近の研究と比較して分類器の優れたパフォーマンスが実証されました。

要約(オリジナル)

Diabetic retinopathy (DR) is a consequence of diabetes mellitus characterized by vascular damage within the retinal tissue. Timely detection is paramount to mitigate the risk of vision loss. However, training robust grading models is hindered by a shortage of annotated data, particularly for severe cases. This paper proposes a framework for controllably generating high-fidelity and diverse DR fundus images, thereby improving classifier performance in DR grading and detection. We achieve comprehensive control over DR severity and visual features (optic disc, vessel structure, lesion areas) within generated images solely through a conditional StyleGAN, eliminating the need for feature masks or auxiliary networks. Specifically, leveraging the SeFa algorithm to identify meaningful semantics within the latent space, we manipulate the DR images generated conditionally on grades, further enhancing the dataset diversity. Additionally, we propose a novel, effective SeFa-based data augmentation strategy, helping the classifier focus on discriminative regions while ignoring redundant features. Using this approach, a ResNet50 model trained for DR detection achieves 98.09% accuracy, 99.44% specificity, 99.45% precision, and an F1-score of 98.09%. Moreover, incorporating synthetic images generated by conditional StyleGAN into ResNet50 training for DR grading yields 83.33% accuracy, a quadratic kappa score of 87.64%, 95.67% specificity, and 72.24% precision. Extensive experiments conducted on the APTOS 2019 dataset demonstrate the exceptional realism of the generated images and the superior performance of our classifier compared to recent studies.

arxiv情報

著者 Somayeh Pakdelmoez,Saba Omidikia,Seyyed Ali Seyyedsalehi,Seyyede Zohreh Seyyedsalehi
発行日 2024-09-11 17:08:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, eess.IV パーマリンク