Generalizing to Unseen Domains in Diabetic Retinopathy with Disentangled Representations

要約

糖尿病によって引き起こされる糖尿病性網膜症(DR)は、視覚障害の重大なリスクをもたらします。
DR の正確かつ効果的な等級付けは、この症状の治療に役立ちます。
しかし、既存のモデルでは、ドメインの移行により、目に見えないドメインで顕著なパフォーマンスの低下が発生します。
以前の方法では、単純な視覚的変換を通じてドメイン スタイルをシミュレートし、堅牢な表現を学習することでドメイン ノイズを軽減することで、この問題に対処していました。
ただし、ドメインのシフトには画像のスタイル以上のものが含まれます。
彼らは、民族、年齢、診断基準などの暗黙の要因によって引き起こされる偏見を見逃します。
私たちの研究では、異なるドメインからのペアになったデータの表現が意味論的特徴とドメイン ノイズに分離される新しいフレームワークを提案します。
結果として得られる拡張表現は、元の網膜セマンティクスと他のドメインからのドメイン ノイズで構成され、多様なドメインからの豊富な情報を組み込んで、現実世界の臨床ニーズに合わせた拡張表現を生成することを目的としています。
その後、分離された表現の堅牢性を向上させるために、クラスとドメインのプロトタイプを使用して分離された表現を補間するとともに、まれなクラスとドメインに焦点を当てるようにデータ認識重みが設計されます。
最後に、クラス内の多様性と密なクラス特徴の間のバランスを維持しながら、特徴から切り離されたレチナル セマンティクスを調整するための堅牢なピクセル レベルのセマンティック アライメント損失を考案します。
複数のベンチマークでの実験結果は、目に見えないドメインに対する私たちの手法の有効性を示しています。
コード実装は https://github.com/richard-peng-xia/DECO からアクセスできます。

要約(オリジナル)

Diabetic Retinopathy (DR), induced by diabetes, poses a significant risk of visual impairment. Accurate and effective grading of DR aids in the treatment of this condition. Yet existing models experience notable performance degradation on unseen domains due to domain shifts. Previous methods address this issue by simulating domain style through simple visual transformation and mitigating domain noise via learning robust representations. However, domain shifts encompass more than image styles. They overlook biases caused by implicit factors such as ethnicity, age, and diagnostic criteria. In our work, we propose a novel framework where representations of paired data from different domains are decoupled into semantic features and domain noise. The resulting augmented representation comprises original retinal semantics and domain noise from other domains, aiming to generate enhanced representations aligned with real-world clinical needs, incorporating rich information from diverse domains. Subsequently, to improve the robustness of the decoupled representations, class and domain prototypes are employed to interpolate the disentangled representations while data-aware weights are designed to focus on rare classes and domains. Finally, we devise a robust pixel-level semantic alignment loss to align retinal semantics decoupled from features, maintaining a balance between intra-class diversity and dense class features. Experimental results on multiple benchmarks demonstrate the effectiveness of our method on unseen domains. The code implementations are accessible on https://github.com/richard-peng-xia/DECO.

arxiv情報

著者 Peng Xia,Ming Hu,Feilong Tang,Wenxue Li,Wenhao Zheng,Lie Ju,Peibo Duan,Huaxiu Yao,Zongyuan Ge
発行日 2024-06-10 15:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク