Synthetic Data Generation with LLM for Improved Depression Prediction

要約

うつ病の自動検出は、心理学と機械学習が交わる分野で急速に成長している研究分野です。
しかし、その関心が急激に高まるにつれて、このような話題はデリケートであるため、データのプライバシーと希少性に対する懸念が高まっています。
この論文では、うつ病予測モデルのパフォーマンスを向上させる合成データを生成する大規模言語モデル (LLM) のパイプラインを提案します。
臨床面接の記録されたトランスクリプトからの非構造化で自然なテキスト データから開始して、オープンソース LLM を利用して、思考連鎖のプロンプトを通じて合成データを生成します。
このパイプラインには 2 つの重要なステップが含まれます。最初のステップは、元のトランスクリプトとうつ病スコアに基づく概要と感情分析の生成です。2 番目のステップは、最初のステップで生成された概要に基づく合成概要/感情分析の生成です。
そして新たなうつ病スコア。
合成データは忠実性とプライバシー保護の指標の点で満足のいくものであっただけでなく、トレーニング データセット内の重症度の分布のバランスも取れており、それによって患者のうつ病の強度を予測するモデルの能力が大幅に向上しました。
LLM を活用して、限られた不均衡な現実世界のデータセットに拡張できる合成データを生成することで、元のデータセットの統計的整合性を維持しながら、うつ病の自動検出で一般的に直面するデータ不足とプライバシーの問題に対処する新しいアプローチを実証します。
このアプローチは、将来のメンタルヘルスの研究と応用のための強力なフレームワークを提供します。

要約(オリジナル)

Automatic detection of depression is a rapidly growing field of research at the intersection of psychology and machine learning. However, with its exponential interest comes a growing concern for data privacy and scarcity due to the sensitivity of such a topic. In this paper, we propose a pipeline for Large Language Models (LLMs) to generate synthetic data to improve the performance of depression prediction models. Starting from unstructured, naturalistic text data from recorded transcripts of clinical interviews, we utilize an open-source LLM to generate synthetic data through chain-of-thought prompting. This pipeline involves two key steps: the first step is the generation of the synopsis and sentiment analysis based on the original transcript and depression score, while the second is the generation of the synthetic synopsis/sentiment analysis based on the summaries generated in the first step and a new depression score. Not only was the synthetic data satisfactory in terms of fidelity and privacy-preserving metrics, it also balanced the distribution of severity in the training dataset, thereby significantly enhancing the model’s capability in predicting the intensity of the patient’s depression. By leveraging LLMs to generate synthetic data that can be augmented to limited and imbalanced real-world datasets, we demonstrate a novel approach to addressing data scarcity and privacy concerns commonly faced in automatic depression detection, all while maintaining the statistical integrity of the original dataset. This approach offers a robust framework for future mental health research and applications.

arxiv情報

著者 Andrea Kang,Jun Yu Chen,Zoe Lee-Youngzie,Shuhao Fu
発行日 2024-11-26 18:31:14+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク