Synthetic Data in Healthcare

要約

タイトル: ヘルスケアにおける合成データ
要約:
– 合成データは人工知能システムを構築するための重要なツールになっている。
– シミュレータはデータを系統的にかつ大規模に生成する方法を提供する。
– 合成データは、実際のデータと単独または併用してシステムをトレーニングおよびテストするために使用できる。
– 合成データは、「実際の」トレーニング例の利用可能性がボトルネックになるケースで特に魅力的である。
– ヘルスケアにおけるデータの量は指数関数的に増加しているが、新しいタスクに対応したデータセットや、多種多様な状態や因果関係を反映したデータを作成することは容易ではない。
– さらに、これらのデータは非常に機密性が高く、しばしば患者固有のものである。
– 最近の研究は、医学の多くの分野における合成データの潜在的な可能性を示しているが、文献の体系的なレビューは存在していない。
– 本論文では、物理的および統計的シミュレーションによるデータの作成と、医療および医学における提案された応用について説明する。
– 合成データはプライバシー、公平性、安全性、および持続的かつ因果的学習を促進できる一方、欠陥、ブラインドスポット、またはバイアスの伝播や誇張のリスクがあることを議論する。

要約(オリジナル)

Synthetic data are becoming a critical tool for building artificially intelligent systems. Simulators provide a way of generating data systematically and at scale. These data can then be used either exclusively, or in conjunction with real data, for training and testing systems. Synthetic data are particularly attractive in cases where the availability of “real” training examples might be a bottleneck. While the volume of data in healthcare is growing exponentially, creating datasets for novel tasks and/or that reflect a diverse set of conditions and causal relationships is not trivial. Furthermore, these data are highly sensitive and often patient specific. Recent research has begun to illustrate the potential for synthetic data in many areas of medicine, but no systematic review of the literature exists. In this paper, we present the cases for physical and statistical simulations for creating data and the proposed applications in healthcare and medicine. We discuss that while synthetics can promote privacy, equity, safety and continual and causal learning, they also run the risk of introducing flaws, blind spots and propagating or exaggerating biases.

arxiv情報

著者 Daniel McDuff,Theodore Curran,Achuta Kadambi
発行日 2023-04-06 17:23:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, stat.AP パーマリンク