A text-to-tabular approach to generate synthetic patient data using LLMs

要約

大規模で高品質な医療データベースへのアクセスは、医学研究を加速し、病気に関する洞察力に富んだ発見を行うための鍵となります。
しかし、そのようなデータへのアクセスは、患者のプライバシーへの懸念、データ共有の制限、高額なコストによって制限されることがよくあります。
これらの制限を克服するために、合成患者データが代替手段として登場しました。
ただし、合成データ生成 (SDG) 手法は通常、元のデータでトレーニングされた機械学習 (ML) モデルに依存しており、データ不足の問題に戻ります。
我々は、元のデータへのアクセスを必要とせず、必要なデータベースの記述のみを必要とする、合成表形式の患者データを生成するアプローチを提案します。
当社は、事前の医学知識と大規模言語モデル (LLM) のコンテキスト内学習機能を活用して、リソースが少ない環境でも現実的な患者データを生成します。
私たちは、忠実度、プライバシー、ユーティリティの指標を使用して、最先端の SDG モデルに対するアプローチを定量的に評価します。
私たちの結果は、LLM が元のデータでトレーニングされた最先端のモデルのパフォーマンスには匹敵しない可能性があるものの、臨床相関がよく保存された現実的な患者データを効果的に生成することを示しています。
アブレーション研究は、高品質の合成患者データ生成に貢献する当社のプロンプトの重要な要素を浮き彫りにします。
このアプローチは使いやすく、元のデータや高度な ML スキルを必要としないため、カスタム設計の患者データを迅速に生成し、プロジェクトの実施をサポートし、教育リソースを提供する場合に特に役立ちます。

要約(オリジナル)

Access to large-scale high-quality healthcare databases is key to accelerate medical research and make insightful discoveries about diseases. However, access to such data is often limited by patient privacy concerns, data sharing restrictions and high costs. To overcome these limitations, synthetic patient data has emerged as an alternative. However, synthetic data generation (SDG) methods typically rely on machine learning (ML) models trained on original data, leading back to the data scarcity problem. We propose an approach to generate synthetic tabular patient data that does not require access to the original data, but only a description of the desired database. We leverage prior medical knowledge and in-context learning capabilities of large language models (LLMs) to generate realistic patient data, even in a low-resource setting. We quantitatively evaluate our approach against state-of-the-art SDG models, using fidelity, privacy, and utility metrics. Our results show that while LLMs may not match the performance of state-of-the-art models trained on the original data, they effectively generate realistic patient data with well-preserved clinical correlations. An ablation study highlights key elements of our prompt contributing to high-quality synthetic patient data generation. This approach, which is easy to use and does not require original data or advanced ML skills, is particularly valuable for quickly generating custom-designed patient data, supporting project implementation and providing educational resources.

arxiv情報

著者 Margaux Tornqvist,Jean-Daniel Zucker,Tristan Fauvel,Nicolas Lambert,Mathilde Berthelot,Antoine Movschin
発行日 2024-12-06 16:10:40+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, I.2 パーマリンク