Hierarchical attention interpretation: an interpretable speech-level transformer for bi-modal depression detection


この論文では、このようなツールの臨床実装を妨げる可能性がある 2 つの制限、つまりセグメントレベルのラベル付けから生じるノイズとモデルの解釈可能性の欠如について取り上げます。
提案されたモデルは、セグメント レベルで学習するモデル ($p$=0.732、$r$=0.808、$F1$ と比較して $p$=0.854、$r$=0.947、$F1$=0.897) よりも優れていることを示します。
モデルの解釈では、1 つの真陽性サンプルを使用して、特定の音声内のどの文がうつ病の検出に最も関連しているかを示します。


Depression is a common mental disorder. Automatic depression detection tools using speech, enabled by machine learning, help early screening of depression. This paper addresses two limitations that may hinder the clinical implementations of such tools: noise resulting from segment-level labelling and a lack of model interpretability. We propose a bi-modal speech-level transformer to avoid segment-level labelling and introduce a hierarchical interpretation approach to provide both speech-level and sentence-level interpretations, based on gradient-weighted attention maps derived from all attention layers to track interactions between input features. We show that the proposed model outperforms a model that learns at a segment level ($p$=0.854, $r$=0.947, $F1$=0.897 compared to $p$=0.732, $r$=0.808, $F1$=0.768). For model interpretation, using one true positive sample, we show which sentences within a given speech are most relevant to depression detection; and which text tokens and Mel-spectrogram regions within these sentences are most relevant to depression detection. These interpretations allow clinicians to verify the validity of predictions made by depression detection tools, promoting their clinical implementations.


著者 Qingkun Deng,Saturnino Luz,Sofia de la Fuente Garcia
発行日 2023-10-06 11:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, F.2.2 パーマリンク