要約
合成電子ヘルスレコード(EHR)タイムシリーズの生成は、より多くのトレーニングデータを提供することでデータ不足に対処するのに役立つため、臨床機械学習モデルを進めるために重要です。
ただし、ほとんどの既存のアプローチは、主に統計分布と実際のデータの時間的依存性の複製に焦点を当てています。
観察されたデータのみに対する忠実度は、一般的なパターンが支配的であり、まれであるが重要な条件の表現を制限する可能性があるため、モデルのパフォーマンスの向上を保証するものではないと主張します。
これは、特定の臨床モデルのパフォーマンスを改善してターゲットの結果を満たすために、合成サンプルを生成する必要性を強調しています。
これに対処するために、タスク固有の影響ガイダンスを合成データ生成プロセスに統合する新しいターゲット指向の拡散フレームワークであるTardiffを提案します。
トレーニングデータ分布を模倣する従来のアプローチとは異なり、UTADIFFは、影響機能を通じて下流モデルのパフォーマンスを改善するための予想される貢献を定量化することにより、合成サンプルを最適化します。
具体的には、合成サンプルによって誘導されるタスク固有の損失の減少を測定し、この影響勾配を逆拡散プロセスに埋め込み、それにより、生成をユーティリティ最適化データに向けて導きます。
公開されている6つのEHRデータセットで評価されたTardiffは、最先端のパフォーマンスを実現し、AUPRCで最大20.4%、Aurocで18.4%を上回ります。
私たちの結果は、ATARDIFFが一時的な忠実度を保持するだけでなく、下流のモデルのパフォーマンスを強化し、ヘルスケア分析におけるデータ不足とクラスの不均衡に対する堅牢なソリューションを提供することを示しています。
要約(オリジナル)
Synthetic Electronic Health Record (EHR) time-series generation is crucial for advancing clinical machine learning models, as it helps address data scarcity by providing more training data. However, most existing approaches focus primarily on replicating statistical distributions and temporal dependencies of real-world data. We argue that fidelity to observed data alone does not guarantee better model performance, as common patterns may dominate, limiting the representation of rare but important conditions. This highlights the need for generate synthetic samples to improve performance of specific clinical models to fulfill their target outcomes. To address this, we propose TarDiff, a novel target-oriented diffusion framework that integrates task-specific influence guidance into the synthetic data generation process. Unlike conventional approaches that mimic training data distributions, TarDiff optimizes synthetic samples by quantifying their expected contribution to improving downstream model performance through influence functions. Specifically, we measure the reduction in task-specific loss induced by synthetic samples and embed this influence gradient into the reverse diffusion process, thereby steering the generation towards utility-optimized data. Evaluated on six publicly available EHR datasets, TarDiff achieves state-of-the-art performance, outperforming existing methods by up to 20.4% in AUPRC and 18.4% in AUROC. Our results demonstrate that TarDiff not only preserves temporal fidelity but also enhances downstream model performance, offering a robust solution to data scarcity and class imbalance in healthcare analytics.
arxiv情報
著者 | Bowen Deng,Chang Xu,Hao Li,Yuhao Huang,Min Hou,Jiang Bian |
発行日 | 2025-04-24 14:36:10+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google