MDD-5k: A New Diagnostic Conversation Dataset for Mental Disorders Synthesized via Neuro-Symbolic LLM Agents

要約

ほとんどの精神障害の臨床診断は、主に精神科医と患者の間の会話に依存します。
このような診断会話データセットの作成は、AI メンタルヘルスケア コミュニティの活性化につながると期待されています。
ただし、実際の診断シナリオで会話を直接収集することは、厳格なプライバシーと倫理的配慮のため、ほぼ不可能です。
この問題に対処するために、私たちは、アクセスしやすい匿名の患者の症例を活用して、診断上の会話を合成しようとしています。
具体的には、大規模な言語モデルを使用して精神障害の診断上の会話を合成するための神経象徴的なマルチエージェント フレームワークを設計します。
患者のケースを入力として受け取り、1 つの患者のケースから複数の多様な会話を生成することができます。
このフレームワークには基本的に医師エージェントと患者エージェント間の対話が含まれており、ツールエージェントからの動的診断ツリーを介した記号制御の下でテキスト生成が実現されます。
提案されたフレームワークを適用することで、私たちは中国最大の精神障害診断データセット MDD-5k を開発しました。これは、先駆的な精神病院と協力して、1000 件の実際の患者の洗浄された症例に基づいて構築されており、診断結果をラベルとして持つ 5000 件の高品質な長い会話が含まれています。
私たちの知る限り、これは最初のラベル付き中国精神障害診断データセットでもあります。
人間による評価では、提案された MDD-5k データセットが人間のような精神障害の診断プロセスをうまくシミュレートしていることが実証されています。
データセットとコードは https://github.com/lemonsis/MDD-5k で公開されます。

要約(オリジナル)

The clinical diagnosis of most mental disorders primarily relies on the conversations between psychiatrist and patient. The creation of such diagnostic conversation datasets is promising to boost the AI mental healthcare community. However, directly collecting the conversations in real diagnosis scenarios is near impossible due to stringent privacy and ethical considerations. To address this issue, we seek to synthesize diagnostic conversation by exploiting anonymous patient cases that are easier to access. Specifically, we design a neuro-symbolic multi-agent framework for synthesizing the diagnostic conversation of mental disorders with large language models. It takes patient case as input and is capable of generating multiple diverse conversations with one single patient case. The framework basically involves the interaction between a doctor agent and a patient agent, and achieves text generation under symbolic control via a dynamic diagnosis tree from a tool agent. By applying the proposed framework, we develop the largest Chinese mental disorders diagnosis dataset MDD-5k, which is built upon 1000 cleaned real patient cases by cooperating with a pioneering psychiatric hospital, and contains 5000 high-quality long conversations with diagnosis results as labels. To the best of our knowledge, it’s also the first labelled Chinese mental disorders diagnosis dataset. Human evaluation demonstrates the proposed MDD-5k dataset successfully simulates human-like diagnostic process of mental disorders. The dataset and code will become publicly accessible in https://github.com/lemonsis/MDD-5k.

arxiv情報

著者 Congchi Yin,Feng Li,Shu Zhang,Zike Wang,Jun Shao,Piji Li,Jianhua Chen,Xun Jiang
発行日 2024-08-22 05:59:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL パーマリンク