Hierarchical attention interpretation: an interpretable speech-level transformer for bi-modal depression detection

要約

うつ病は一般的な精神障害です。
機械学習によって実現された、音声を使用した自動うつ病検出ツールは、うつ病の早期スクリーニングに役立ちます。
この論文では、このようなツールの臨床実装を妨げる可能性がある 2 つの制限、つまりセグメントレベルのラベル付けから生じるノイズとモデルの解釈可能性の欠如について取り上げます。
我々は、セグメントレベルのラベル付けを回避するバイモーダル音声レベル変換器を提案し、すべての注意層から導出された勾配加重注意マップに基づいて、音声レベルと文レベルの両方の解釈を提供する階層的解釈アプローチを導入して、相互作用を追跡します。
入力機能。
提案されたモデルは、セグメント レベルで学習するモデル ($p$=0.732、$r$=0.808、$F1$ と比較して $p$=0.854、$r$=0.947、$F1$=0.897) よりも優れていることを示します。
=0.768)。
モデルの解釈では、1 つの真陽性サンプルを使用して、特定の音声内のどの文がうつ病の検出に最も関連しているかを示します。
そして、これらの文内のどのテキストトークンとメルスペクトログラム領域がうつ病の検出に最も関連しているか。
これらの解釈により、臨床医はうつ病検出ツールによる予測の妥当性を検証できるようになり、臨床実装が促進されます。

要約(オリジナル)

Depression is a common mental disorder. Automatic depression detection tools using speech, enabled by machine learning, help early screening of depression. This paper addresses two limitations that may hinder the clinical implementations of such tools: noise resulting from segment-level labelling and a lack of model interpretability. We propose a bi-modal speech-level transformer to avoid segment-level labelling and introduce a hierarchical interpretation approach to provide both speech-level and sentence-level interpretations, based on gradient-weighted attention maps derived from all attention layers to track interactions between input features. We show that the proposed model outperforms a model that learns at a segment level ($p$=0.854, $r$=0.947, $F1$=0.897 compared to $p$=0.732, $r$=0.808, $F1$=0.768). For model interpretation, using one true positive sample, we show which sentences within a given speech are most relevant to depression detection; and which text tokens and Mel-spectrogram regions within these sentences are most relevant to depression detection. These interpretations allow clinicians to verify the validity of predictions made by depression detection tools, promoting their clinical implementations.

arxiv情報

著者 Qingkun Deng,Saturnino Luz,Sofia de la Fuente Garcia
発行日 2023-10-06 11:46:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS, F.2.2 パーマリンク