Leveraging Generative AI Through Prompt Engineering and Rigorous Validation to Create Comprehensive Synthetic Datasets for AI Training in Healthcare

要約

高品質の医療データへのアクセスは、プライバシーの懸念のために制限されることがよくあり、電子健康記録(EHR)アプリケーション内で人工知能(AI)アルゴリズムをトレーニングするための重大な課題を提起します。
この研究では、GPT-4 APIを使用した迅速なエンジニアリングを使用して、この制限を克服することを目的とした高品質の合成データセットを生成しました。
生成されたデータには、医療提供者の詳細、病院部門、病棟、ベッドの割り当て、患者の障害、緊急連絡先、バイタルサイン、予防接種、アレルギー、病歴、予約、病院の訪問、臨床検査、診断、診断、治療計画、臨床券、訪問、訪問ログ、リファレンスなどの包括的な患者入場情報が含まれていました。
データの品質と整合性を確保するために、Bertの次の文のコヒーレンスの次の文予測、全体的な妥当性のGPT-2、論理的一貫性のためのRoberta、異常検出の自動エンコーダー、多様性分析を実施するモデルを使用して、高度な検証手法を実装しました。
すべての検証基準を満たす合成データは、EHRアプリケーションのデータ管理システムとして機能する包括的なPostgreSQLデータベースに統合されました。
このアプローチは、厳密な検証を伴う生成AIモデルを活用すると、高品質の合成医療データを効果的に生成し、実際の患者データに関連するプライバシーの懸念に対処しながらAIアルゴリズムのトレーニングを促進できることを示しています。

要約(オリジナル)

Access to high-quality medical data is often restricted due to privacy concerns, posing significant challenges for training artificial intelligence (AI) algorithms within Electronic Health Record (EHR) applications. In this study, prompt engineering with the GPT-4 API was employed to generate high-quality synthetic datasets aimed at overcoming this limitation. The generated data encompassed a comprehensive array of patient admission information, including healthcare provider details, hospital departments, wards, bed assignments, patient demographics, emergency contacts, vital signs, immunizations, allergies, medical histories, appointments, hospital visits, laboratory tests, diagnoses, treatment plans, medications, clinical notes, visit logs, discharge summaries, and referrals. To ensure data quality and integrity, advanced validation techniques were implemented utilizing models such as BERT’s Next Sentence Prediction for sentence coherence, GPT-2 for overall plausibility, RoBERTa for logical consistency, autoencoders for anomaly detection, and conducted diversity analysis. Synthetic data that met all validation criteria were integrated into a comprehensive PostgreSQL database, serving as the data management system for the EHR application. This approach demonstrates that leveraging generative AI models with rigorous validation can effectively produce high-quality synthetic medical data, facilitating the training of AI algorithms while addressing privacy concerns associated with real patient data.

arxiv情報

著者 Polycarp Nalela
発行日 2025-04-29 16:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI パーマリンク