要約
ヘルスケアにおける合成データの採用の増大は、プライバシーの懸念、現実世界のデータへの限られたアクセス、および注釈の高いコストによって推進されています。
この研究では、臨床モデルのトレーニングと評価のためのスケーラブルな代替品として、心的外傷後ストレス障害(PTSD)の合成延長曝露(PE)治療的会話の使用を調査します。
ターンテイキングパターンや治療の忠実度を含む、言語、構造、およびプロトコル固有のメトリックを使用して、実際の対話と合成の対話を体系的に比較します。
また、言語分析とセマンティックモデリングに由来するPE固有のメトリックを導入および評価し、表面流fluさを超えた臨床的忠実度を評価するための新しいフレームワークを提供します。
私たちの調査結果は、合成データがデータの希少性を緩和し、患者のプライバシーを保護することを約束しているが、治療的相互作用の微妙なダイナミクスを捉えるのに苦労する可能性があることを示しています。
合成療法の対話は、実際の会話の構造的特徴と密接に一致します(例:スピーカースイッチ比:0.98対0.99)。
ただし、重要な忠実度マーカーを適切に反映していない場合があります(例:苦痛監視)。
既存の評価フレームワークのギャップを強調し、臨床的に重要な障害を明らかにするために表面の流encyさを超えた忠実度を意識したメトリックを提唱します。
私たちの調査結果は、合成データが現実世界のデータセットを効果的に補完できる場所、そして重大な制限がどこにあるかを明確にします。
要約(オリジナル)
The growing adoption of synthetic data in healthcare is driven by privacy concerns, limited access to real-world data, and the high cost of annotation. This work explores the use of synthetic Prolonged Exposure (PE) therapeutic conversations for Post-Traumatic Stress Disorder (PTSD) as a scalable alternative for training and evaluating clinical models. We systematically compare real and synthetic dialogues using linguistic, structural, and protocol-specific metrics, including turn-taking patterns and treatment fidelity. We also introduce and evaluate PE-specific metrics derived from linguistic analysis and semantic modeling, offering a novel framework for assessing clinical fidelity beyond surface fluency. Our findings show that although synthetic data holds promise for mitigating data scarcity and protecting patient privacy, it can struggle to capture the subtle dynamics of therapeutic interactions. Synthetic therapy dialogues closely match structural features of real-world conversations (e.g., speaker switch ratio: 0.98 vs. 0.99); however, they may not adequately reflect key fidelity markers (e.g., distress monitoring). We highlight gaps in existing evaluation frameworks and advocate for fidelity-aware metrics that go beyond surface fluency to uncover clinically significant failures. Our findings clarify where synthetic data can effectively complement real-world datasets — and where critical limitations remain.
arxiv情報
著者 | Suhas BN,Dominik Mattioli,Saeed Abdullah,Rosa I. Arriaga,Chris W. Wiese,Andrew M. Sherrill |
発行日 | 2025-05-01 16:44:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google