NFDI4Health workflow and service for synthetic data generation, assessment and risk management

要約

個人の健康データは、科学の進歩、特に人工知能 (AI) の開発にとって極めて重要です。
ただし、実際の患者情報の共有はプライバシー上の懸念から制限されることがよくあります。
この課題に対する有望な解決策は、合成データの生成です。
この技術は、患者の機密情報を保持しながら、実際のデータの統計的特性を模倣するまったく新しいデータセットを作成します。
このペーパーでは、ドイツの国家データ インフラストラクチャ プロジェクト NFDI4Health のコンテキストで開発されたワークフローとさまざまなサービスを紹介します。
まず、合成健康データを生成するための 2 つの最先端の AI ツール (VAMBN と MultiNODE) について概説します。
さらに、ユーザーが目的の生成モデルによって提供される合成データの品質とリスクを視覚化し、評価できるようにする SYNDAT (公開 Web ベース ツール) を紹介します。
さらに、アルツハイマー病神経画像イニシアチブ (ADNI) とロベルト コッホ研究所のがん登録データ センター (RKI) からのデータを使用して、提案された方法と Web ベースのツールの有用性が紹介されます。

要約(オリジナル)

Individual health data is crucial for scientific advancements, particularly in developing Artificial Intelligence (AI); however, sharing real patient information is often restricted due to privacy concerns. A promising solution to this challenge is synthetic data generation. This technique creates entirely new datasets that mimic the statistical properties of real data, while preserving confidential patient information. In this paper, we present the workflow and different services developed in the context of Germany’s National Data Infrastructure project NFDI4Health. First, two state-of-the-art AI tools (namely, VAMBN and MultiNODEs) for generating synthetic health data are outlined. Further, we introduce SYNDAT (a public web-based tool) which allows users to visualize and assess the quality and risk of synthetic data provided by desired generative models. Additionally, the utility of the proposed methods and the web-based tool is showcased using data from Alzheimer’s Disease Neuroimaging Initiative (ADNI) and the Center for Cancer Registry Data of the Robert Koch Institute (RKI).

arxiv情報

著者 Sobhan Moazemi,Tim Adams,Hwei Geok NG,Lisa Kühnel,Julian Schneider,Anatol-Fiete Näher,Juliane Fluck,Holger Fröhlich
発行日 2024-08-08 14:08:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク