要約
多くの研究で、深層学習アルゴリズムは、たとえば腫瘍のサブタイプや転移の主な原因を明らかにするなど、病理組織画像の分析における可能性を証明しています。
これらのモデルにはトレーニング用の大規模なデータセットが必要であり、患者の身元情報が漏洩する可能性を防ぐためにデータセットを匿名化する必要があります。
この研究は、比較的単純な深層学習アルゴリズムでも、大規模な病理組織データセット内の患者をかなりの精度で再識別できることを示しています。
肺扁平上皮癌 (LSCC) と肺腺癌 (LUAD) を含む 2 つの TCIA データセットでアルゴリズムを評価しました。
また、髄膜腫組織の社内データセットに対するアルゴリズムのパフォーマンスも実証します。
スライドのソース患者を、LSCC および LUAD データセットではそれぞれ 50.16 % と 52.30 % の F1 スコアで予測し、髄膜腫データセットでは 62.31 % で予測しました。
私たちの調査結果に基づいて、出版前に患者のプライバシーに対するリスクを推定するためのリスク評価スキームを策定しました。
要約(オリジナル)
In numerous studies, deep learning algorithms have proven their potential for the analysis of histopathology images, for example, for revealing the subtypes of tumors or the primary origin of metastases. These models require large datasets for training, which must be anonymized to prevent possible patient identity leaks. This study demonstrates that even relatively simple deep learning algorithms can re-identify patients in large histopathology datasets with substantial accuracy. We evaluated our algorithms on two TCIA datasets including lung squamous cell carcinoma (LSCC) and lung adenocarcinoma (LUAD). We also demonstrate the algorithm’s performance on an in-house dataset of meningioma tissue. We predicted the source patient of a slide with F1 scores of 50.16 % and 52.30 % on the LSCC and LUAD datasets, respectively, and with 62.31 % on our meningioma dataset. Based on our findings, we formulated a risk assessment scheme to estimate the risk to the patient’s privacy prior to publication.
arxiv情報
著者 | Jonathan Ganz,Jonas Ammeling,Samir Jabari,Katharina Breininger,Marc Aubreville |
発行日 | 2024-03-19 15:15:19+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google