要約
うつ病やPTSDなどの精神障害の世界的な有病率の増加には、客観的でスケーラブルな診断ツールが必要です。
従来の臨床評価は、多くの場合、アクセシビリティ、客観性、一貫性の制限に直面しています。
このペーパーでは、これらの課題に対処するためのマルチモーダル機械学習の可能性を調査し、テキスト、オーディオ、ビデオデータで利用可能な補完的な情報を活用します。
私たちのアプローチには、新しいチャンクや発話ベースのフォーマット戦略など、さまざまなデータの前処理技術の包括的な分析が含まれます。
各モダリティの最先端の埋め込みモデルの範囲を体系的に評価し、特徴抽出のために畳み込みニューラルネットワーク(CNNS)および双方向LSTMネットワーク(BILSTMS)を採用します。
大規模な言語モデル(LLM)予測の新しい統合を含む、データレベル、機能レベル、および意思決定レベルの融合技術を探ります。
また、多層パーセプトロン分類器をサポートベクトルマシンに置き換えることの影響を調査します。
PHQ-8およびPCL-Cスコアとマルチクラス分類を使用して、分析を重症度予測に拡張します(共起状態を考慮します)。
私たちの結果は、特にテキストとオーディオのモダリティのために、発話ベースのチャンキングがパフォーマンスを大幅に改善することを示しています。
LLM予測を組み込んだ意思決定レベルの融合は、うつ病で94.8%、PTSD検出で96.2%のバランスの取れた精度で最高の精度を達成します。
CNN-Bilstmアーキテクチャと発話レベルのチャンキングと外部LLMの統合と組み合わされた組み合わせは、精神的健康状態の検出と評価に強力で微妙なアプローチを提供します。
私たちの調査結果は、より正確でアクセスしやすく、パーソナライズされたメンタルヘルスケアツールを開発するためのMMMLの可能性を強調しています。
要約(オリジナル)
The increasing global prevalence of mental disorders, such as depression and PTSD, requires objective and scalable diagnostic tools. Traditional clinical assessments often face limitations in accessibility, objectivity, and consistency. This paper investigates the potential of multimodal machine learning to address these challenges, leveraging the complementary information available in text, audio, and video data. Our approach involves a comprehensive analysis of various data preprocessing techniques, including novel chunking and utterance-based formatting strategies. We systematically evaluate a range of state-of-the-art embedding models for each modality and employ Convolutional Neural Networks (CNNs) and Bidirectional LSTM Networks (BiLSTMs) for feature extraction. We explore data-level, feature-level, and decision-level fusion techniques, including a novel integration of Large Language Model (LLM) predictions. We also investigate the impact of replacing Multilayer Perceptron classifiers with Support Vector Machines. We extend our analysis to severity prediction using PHQ-8 and PCL-C scores and multi-class classification (considering co-occurring conditions). Our results demonstrate that utterance-based chunking significantly improves performance, particularly for text and audio modalities. Decision-level fusion, incorporating LLM predictions, achieves the highest accuracy, with a balanced accuracy of 94.8% for depression and 96.2% for PTSD detection. The combination of CNN-BiLSTM architectures with utterance-level chunking, coupled with the integration of external LLM, provides a powerful and nuanced approach to the detection and assessment of mental health conditions. Our findings highlight the potential of MMML for developing more accurate, accessible, and personalized mental healthcare tools.
arxiv情報
著者 | Abdelrahaman A. Hassan,Abdelrahman A. Ali,Aya E. Fouda,Radwa J. Hanafy,Mohammed E. Fouda |
発行日 | 2025-04-02 14:19:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google