Transferring speech-generic and depression-specific knowledge for Alzheimer’s disease detection


自発的な発話からのアルツハイマー病 (AD) の検出はますます注目を集めていますが、トレーニング データの希薄性は依然として重要な問題です。
この論文ではまず、大量の音声データとテキスト データで事前トレーニングされた汎用基盤モデルからの逐次的な知識伝達について研究します。
ブロックごとの分析は、さまざまな基礎モデルのさまざまな中間ブロックから抽出された表現に基づいて、AD 診断のために実行されます。
これら 2 つのタスク間で共有される情報を共同学習する並列知識伝達フレームワークが研究されています。
実験結果は、提案された方法が AD とうつ病の検出を改善し、一般的に使用される ADReSSo データセットで AD 診断に関して 0.928 という最先端の F1 スコアを生成することを示しています。


The detection of Alzheimer’s disease (AD) from spontaneous speech has attracted increasing attention while the sparsity of training data remains an important issue. This paper handles the issue by knowledge transfer, specifically from both speech-generic and depression-specific knowledge. The paper first studies sequential knowledge transfer from generic foundation models pretrained on large amounts of speech and text data. A block-wise analysis is performed for AD diagnosis based on the representations extracted from different intermediate blocks of different foundation models. Apart from the knowledge from speech-generic representations, this paper also proposes to simultaneously transfer the knowledge from a speech depression detection task based on the high comorbidity rates of depression and AD. A parallel knowledge transfer framework is studied that jointly learns the information shared between these two tasks. Experimental results show that the proposed method improves AD and depression detection, and produces a state-of-the-art F1 score of 0.928 for AD diagnosis on the commonly used ADReSSo dataset.


著者 Ziyun Cui,Wen Wu,Wei-Qiang Zhang,Ji Wu,Chao Zhang
発行日 2023-10-06 16:28:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク