Self-supervised representations in speech-based depression detection

要約

この論文では、自己教師あり学習 (SSL) で事前トレーニングされた基礎モデルを使用して、音声ベースの自動うつ病検出 (SDD) におけるトレーニング データのスパース性を処理することを提案します。
事前トレーニングされた基礎モデルのさまざまな層から派生した SSL 表現の分析が SDD に対して初めて提示され、うつ病検出に適した指標への洞察が得られます。
次に、基礎モデルを微調整することによって、自動音声認識 (ASR) と感情認識から SDD への知識の伝達が実行されます。
結果は、ASR モデルの隠蔽表現が ASR テキスト情報とともに組み込まれている場合、Oracle および ASR 転写を使用すると、同様の SDD パフォーマンスが得られることを示しています。
複数の基礎モデルからの表現を統合することにより、実際の ASR に基づく最先端の SDD 結果が DAIC-WOZ データセット上で実現されました。

要約(オリジナル)

This paper proposes handling training data sparsity in speech-based automatic depression detection (SDD) using foundation models pre-trained with self-supervised learning (SSL). An analysis of SSL representations derived from different layers of pre-trained foundation models is first presented for SDD, which provides insight to suitable indicator for depression detection. Knowledge transfer is then performed from automatic speech recognition (ASR) and emotion recognition to SDD by fine-tuning the foundation models. Results show that the uses of oracle and ASR transcriptions yield similar SDD performance when the hidden representations of the ASR model is incorporated along with the ASR textual information. By integrating representations from multiple foundation models, state-of-the-art SDD results based on real ASR were achieved on the DAIC-WOZ dataset.

arxiv情報

著者 Wen Wu,Chao Zhang,Philip C. Woodland
発行日 2023-07-06 13:43:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク