Depression Detection and Analysis using Large Language Models on Textual and Audio-Visual Modalities

要約

うつ病は公衆衛生上の重大な問題であり、個人の心理的健康に深刻な影響を与えることが証明されています。
うつ病が診断されないままであると、深刻な健康上の問題を引き起こす可能性があり、それが身体的に現れ、自殺につながる可能性もあります。
一般に、うつ病やその他の精神障害の診断には、臨床医やメンタルヘルス専門家による患者健康質問票 (PHQ) の変形を含む補足質問票と並行して、半構造化された面接を実施することが含まれます。
このアプローチは訓練を受けた医師の経験と判断に大きく依存するため、診断は個人的な偏見の影響を受けやすくなります。
うつ病を引き起こす根本的なメカニズムは依然として活発に研究されているため、医師は、特に臨床症状の初期段階において、うつ病の診断と治療において困難に直面することがよくあります。
最近、人工ニューラル コンピューティングは大幅な進歩を遂げ、さまざまな領域のテキスト、画像、音声に関する問題を解決しています。
私たちの分析は、実験でこれらの最先端 (SOTA) モデルを活用し、複数のモダリティを活用して最適な結果を達成することを目的としています。
実験は、Audio/Visual Emotion Challenge (AVEC) 2019 Challenge で発表された Extended Distress Analysis Interview Corpus Wizard of Oz データセット (E-DAIC) コーパスに対して実行されました。
提案されたソリューションは、独自のオープンソース大規模言語モデル (LLM) によって達成されるより良い結果を実証しており、テキスト モダリティで二乗平均平方根誤差 (RMSE) スコア 3.98 を達成し、AVEC 2019 チャレンジのベースライン結果と現在の SOTA 回帰分析アーキテクチャを上回っています。

さらに、提案されたソリューションは分類タスクで 71.43% の精度を達成しました。
この論文には、RMSE 6.51 で PHQ-8 スコアを予測する新しいオーディオビジュアル マルチモーダル ネットワークも含まれています。

要約(オリジナル)

Depression has proven to be a significant public health issue, profoundly affecting the psychological well-being of individuals. If it remains undiagnosed, depression can lead to severe health issues, which can manifest physically and even lead to suicide. Generally, Diagnosing depression or any other mental disorder involves conducting semi-structured interviews alongside supplementary questionnaires, including variants of the Patient Health Questionnaire (PHQ) by Clinicians and mental health professionals. This approach places significant reliance on the experience and judgment of trained physicians, making the diagnosis susceptible to personal biases. Given that the underlying mechanisms causing depression are still being actively researched, physicians often face challenges in diagnosing and treating the condition, particularly in its early stages of clinical presentation. Recently, significant strides have been made in Artificial neural computing to solve problems involving text, image, and speech in various domains. Our analysis has aimed to leverage these state-of-the-art (SOTA) models in our experiments to achieve optimal outcomes leveraging multiple modalities. The experiments were performed on the Extended Distress Analysis Interview Corpus Wizard of Oz dataset (E-DAIC) corpus presented in the Audio/Visual Emotion Challenge (AVEC) 2019 Challenge. The proposed solutions demonstrate better results achieved by Proprietary and Open-source Large Language Models (LLMs), which achieved a Root Mean Square Error (RMSE) score of 3.98 on Textual Modality, beating the AVEC 2019 challenge baseline results and current SOTA regression analysis architectures. Additionally, the proposed solution achieved an accuracy of 71.43% in the classification task. The paper also includes a novel audio-visual multi-modal network that predicts PHQ-8 scores with an RMSE of 6.51.

arxiv情報

著者 Avinash Anand,Chayan Tank,Sarthak Pol,Vinayak Katoch,Shaina Mehta,Rajiv Ratn Shah
発行日 2024-07-08 17:00:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.HC パーマリンク