Image Distillation for Safe Data Sharing in Histopathology

要約

組織病理学は、臨床医が正確な診断を下し、病気の予後を判断し、適切な治療戦略を計画するのに役立ちます。
深層学習技術が医療分野で成功を収めていることが証明されるにつれ、主な課題は、利用可能なデータの制限と、データ共有とプライバシーに関する懸念になります。
フェデレーション ラーニングは、モデルをローカルでトレーニングし、サーバー上のパラメーターを更新することで、この課題に対処しました。
ただし、ドメインのシフトやバイアスなどの問題は残り、全体的なパフォーマンスに影響を与えます。
データセットの蒸留は、これらの課題を克服するための代替アプローチを提供します。
これには、制約なしで共有できる重要な情報をカプセル化する小さな合成データセットの作成が含まれます。
現在の蒸留アプローチは人間が判読できない表現しか生成せず、下流の学習タスクには不十分なパフォーマンスしか示さないため、現時点ではこのパラダイムは実用的ではありません。
潜在拡散モデルをトレーニングし、人間が判読できる少数の合成画像を含む新しい抽出された合成データセットを構築します。
最大限の情報を提供する合成画像の選択は、表現空間のグラフ コミュニティ分析によって行われます。
当社の合成蒸留データでトレーニングされた下流の分類モデルと実際のデータでトレーニングされたモデルを比較し、実用化に適したパフォーマンスを達成します。

要約(オリジナル)

Histopathology can help clinicians make accurate diagnoses, determine disease prognosis, and plan appropriate treatment strategies. As deep learning techniques prove successful in the medical domain, the primary challenges become limited data availability and concerns about data sharing and privacy. Federated learning has addressed this challenge by training models locally and updating parameters on a server. However, issues, such as domain shift and bias, persist and impact overall performance. Dataset distillation presents an alternative approach to overcoming these challenges. It involves creating a small synthetic dataset that encapsulates essential information, which can be shared without constraints. At present, this paradigm is not practicable as current distillation approaches only generate non human readable representations and exhibit insufficient performance for downstream learning tasks. We train a latent diffusion model and construct a new distilled synthetic dataset with a small number of human readable synthetic images. Selection of maximally informative synthetic images is done via graph community analysis of the representation space. We compare downstream classification models trained on our synthetic distillation data to models trained on real data and reach performances suitable for practical application.

arxiv情報

著者 Zhe Li,Bernhard Kainz
発行日 2024-06-25 16:28:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV パーマリンク