要約
Synthetic Electronic Health Records(EHRS)は、ヘルスケアでの多数のアプリケーションをサポートし、プライバシー保存および調和の取れた構造化データを作成する貴重な機会を提供します。
合成データの主な利点には、データスキーマの正確な制御、患者集団の公平性と表現の改善、および実際の個人のプライバシーを損なうことに関する懸念なしにデータセットを共有する能力が含まれます。
その結果、AIコミュニティはますます大きな言語モデル(LLMS)に変わり、さまざまなドメインで合成データを生成しました。
しかし、ヘルスケアの重要な課題は、合成の健康記録がさまざまな病院で確実に一般化することを保証することです。これは、この分野で長年の問題です。
この作業では、合成データを生成するための商用LLMの現在の状態を評価し、生成プロセスの複数の側面を調査して、これらのモデルが優れている領域と不足している領域を特定します。
この作業からの私たちの主な発見は、LLMSが機能の小さなサブセットの合成健康記録を確実に生成できる一方で、データの次元が増加するにつれて現実的な分布と相関を維持するのに苦労し、最終的には多様な病院の設定全体で一般化する能力を制限することです。
要約(オリジナル)
Synthetic Electronic Health Records (EHRs) offer a valuable opportunity to create privacy preserving and harmonized structured data, supporting numerous applications in healthcare. Key benefits of synthetic data include precise control over the data schema, improved fairness and representation of patient populations, and the ability to share datasets without concerns about compromising real individuals privacy. Consequently, the AI community has increasingly turned to Large Language Models (LLMs) to generate synthetic data across various domains. However, a significant challenge in healthcare is ensuring that synthetic health records reliably generalize across different hospitals, a long standing issue in the field. In this work, we evaluate the current state of commercial LLMs for generating synthetic data and investigate multiple aspects of the generation process to identify areas where these models excel and where they fall short. Our main finding from this work is that while LLMs can reliably generate synthetic health records for smaller subsets of features, they struggle to preserve realistic distributions and correlations as the dimensionality of the data increases, ultimately limiting their ability to generalize across diverse hospital settings.
arxiv情報
著者 | Yihan Lin,Zhirong Bella Yu,Simon Lee |
発行日 | 2025-04-25 06:34:43+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google