Multi-modal Depression Estimation based on Sub-attentional Fusion


うつ病をタイムリーに診断し、効果的に治療しないと、世界中で 2 億 8,000 万人以上がこの精神障害に苦しんでいます。
うつ病の情報手がかりは、オーディオ、ビジュアル、テキスト データなどの多様な異種リソースから収集できるため、自動推定のための新しい効果的なマルチモーダル フュージョン アプローチの需要が高まっています。
この作業では、マルチモーダル データからうつ病を自動的に識別するタスクに取り組み、畳み込み双方向 LSTM をバックボーンとして活用しながら、異種の情報をリンクするサブアテンション メカニズムを導入します。
このアイデアを検証するために、さまざまな評価モードを特徴とし、性別固有のバイアスを考慮に入れて、うつ病評価のパブリック DAIC-WOZ ベンチマークで広範な実験を行います。
提案されたモデルは、大うつ病の検出で 0.89 の精度と 0.70 の F1 スコア、重症度の推定で 4.92 MAE の効果的な結果をもたらします。


Failure to timely diagnose and effectively treat depression leads to over 280 million people suffering from this psychological disorder worldwide. The information cues of depression can be harvested from diverse heterogeneous resources, e.g., audio, visual, and textual data, raising demand for new effective multi-modal fusion approaches for automatic estimation. In this work, we tackle the task of automatically identifying depression from multi-modal data and introduce a sub-attention mechanism for linking heterogeneous information while leveraging Convolutional Bidirectional LSTM as our backbone. To validate this idea, we conduct extensive experiments on the public DAIC-WOZ benchmark for depression assessment featuring different evaluation modes and taking gender-specific biases into account. The proposed model yields effective results with 0.89 precision and 0.70 F1-score in detecting major depression and 4.92 MAE in estimating the severity. Our attention-based fusion module consistently outperforms conventional late fusion approaches and achieves competitive performance compared to the previously published depression estimation frameworks, while learning to diagnose the disorder end-to-end and relying on far fewer preprocessing steps.


著者 Ping-Cheng Wei,Kunyu Peng,Alina Roitberg,Kailun Yang,Jiaming Zhang,Rainer Stiefelhagen
発行日 2022-08-18 11:05:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CV, cs.RO パーマリンク