要約
医療分野では、プライバシー上の懸念により、大規模なデータセットを取得することは大きな課題となります。
それにもかかわらず、網膜疾患診断のための堅牢な深層学習モデルの開発には、トレーニング用の十分なデータセットが必要です。
より小さなデータセットを効果的に一般化する能力は、依然として根深い課題です。
データの不足は、スケーラブルな医療 AI ソリューションの実際の実装にとって大きな障壁となります。
この問題に対処するために、さまざまなデータ ソースを組み合わせて、マルチモーダル データセットからのデータ表現をより深く理解することでパフォーマンスと新しいデータへの一般化を向上させ、大規模な言語モデルに基づいた自己教師ありフレームワークを開発しました。
(LLM)、SwinV2 を使用すると、マルチモーダル データセット表現をより深く理解できるようになり、光コヒーレンストモグラフィー (OCT) 画像を使用して眼疾患を検出するための新しいデータを推定するモデルの機能が強化されます。
私たちは、自己教師ありの事前トレーニング、および下流の教師あり分類器での微調整という 2 段階のトレーニング方法論を採用しています。
さまざまなエンコーダー バックボーンを使用し、データ融合なし、データ可用性の低い設定、自己教師付き事前トレーニング シナリオなしで、3 つのデータセットにわたって実施されたアブレーション研究は、私たちの方法の堅牢性を強調しています。
私たちの調査結果は、これらの多様な条件にわたって一貫したパフォーマンスを示し、ベースライン モデルである ResNet-50 と比較して優れた汎化機能を示しています。
要約(オリジナル)
In the medical domain, acquiring large datasets poses significant challenges due to privacy concerns. Nonetheless, the development of a robust deep-learning model for retinal disease diagnosis necessitates a substantial dataset for training. The capacity to generalize effectively on smaller datasets remains a persistent challenge. The scarcity of data presents a significant barrier to the practical implementation of scalable medical AI solutions. To address this issue, we’ve combined a wide range of data sources to improve performance and generalization to new data by giving it a deeper understanding of the data representation from multi-modal datasets and developed a self-supervised framework based on large language models (LLMs), SwinV2 to gain a deeper understanding of multi-modal dataset representations, enhancing the model’s ability to extrapolate to new data for the detection of eye diseases using optical coherence tomography (OCT) images. We adopt a two-phase training methodology, self-supervised pre-training, and fine-tuning on a downstream supervised classifier. An ablation study conducted across three datasets employing various encoder backbones, without data fusion, with low data availability setting, and without self-supervised pre-training scenarios, highlights the robustness of our method. Our findings demonstrate consistent performance across these diverse conditions, showcasing superior generalization capabilities compared to the baseline model, ResNet-50.
arxiv情報
著者 | Fatema-E- Jannat,Sina Gholami,Jennifer I. Lim,Theodore Leng,Minhaj Nur Alam,Hamed Tabkhi |
発行日 | 2024-09-17 17:22:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google