Zero-shot generation of synthetic neurosurgical data with large language models

要約

臨床データは脳神経外科的研究を進めるための基本ですが、アクセスはデータの可用性、小さなサンプルサイズ、プライバシー規制、リソース集約的な前処理および識別手順によってしばしば制約されます。
合成データは、実際のデータ(RWD)へのアクセスと使用に関連する課題に対する潜在的なソリューションを提供します。
この研究の目的は、条件付き表形式生成敵ネットワーク(CTGAN)でベンチマークすることにより、大きな言語モデル(LLM)、GPT-4Oを使用した合成神経外科データのゼロショット生成の能力を評価することを目的としています。
合成データセットを実際の神経外科的データと比較して、忠実度(平均、割合、分布、および二変量相関)、ユーティリティ(RWDのML分類器パフォーマンス)、プライバシー(RWDからの記録の複製)を評価しました。
GPT-4O生成データセットは、トレーニング前のRWDへの微調整やアクセスがないにもかかわらず、CTGANパフォーマンスと一致または超えた。
データセットは、増幅されたサンプルサイズであっても、実際の患者記録を直接露出することなく、RWDに対する高い単変量および二変量の忠実度を示しました。
GPT-4O生成データでML分類器をトレーニングし、RWDでのバイナリ予測タスクのテストで、術後の機能状態の劣化を予測するためのCTGANデータ(0.705)のトレーニングに匹敵するパフォーマンスを備えたF1スコア(0.706)が示されました。
GPT-4oは、高忠実度の合成神経外科的データを生成する有望な能力を実証しました。
これらの調査結果は、GPT-4Oで合成されたデータが、サンプルサイズが少ない臨床データを効果的に増強し、神経外科的結果の予測のためにMLモデルを訓練できることを示しています。
分布特性の保存を改善し、分類器のパフォーマンスを高めるには、さらなる調査が必要です。

要約(オリジナル)

Clinical data is fundamental to advance neurosurgical research, but access is often constrained by data availability, small sample sizes, privacy regulations, and resource-intensive preprocessing and de-identification procedures. Synthetic data offers a potential solution to challenges associated with accessing and using real-world data (RWD). This study aims to evaluate the capability of zero-shot generation of synthetic neurosurgical data with a large language model (LLM), GPT-4o, by benchmarking with the conditional tabular generative adversarial network (CTGAN). Synthetic datasets were compared to real-world neurosurgical data to assess fidelity (means, proportions, distributions, and bivariate correlations), utility (ML classifier performance on RWD), and privacy (duplication of records from RWD). The GPT-4o-generated datasets matched or exceeded CTGAN performance, despite no fine-tuning or access to RWD for pre-training. Datasets demonstrated high univariate and bivariate fidelity to RWD without directly exposing any real patient records, even at amplified sample size. Training an ML classifier on GPT-4o-generated data and testing on RWD for a binary prediction task showed an F1 score (0.706) with comparable performance to training on the CTGAN data (0.705) for predicting postoperative functional status deterioration. GPT-4o demonstrated a promising ability to generate high-fidelity synthetic neurosurgical data. These findings also indicate that data synthesized with GPT-4o can effectively augment clinical data with small sample sizes, and train ML models for prediction of neurosurgical outcomes. Further investigation is necessary to improve the preservation of distributional characteristics and boost classifier performance.

arxiv情報

著者 Austin A. Barr,Eddie Guo,Emre Sezgin
発行日 2025-02-13 18:21:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク