Detecting Dementia from Speech and Transcripts using Transformers

要約

アルツハイマー病(AD)は、利用可能な治療法がないために早期に診断されない場合、人々の日常生活に深刻な結果をもたらす神経変性疾患を構成します。
アルツハイマー病は認知症の最も一般的な原因であり、記憶喪失の一般的な用語を構成します。
認知症は発話に影響を与えるという事実のために、既存の研究イニシアチブは自発的な発話から認知症を検出することに焦点を合わせています。
ただし、音声データのLog-MelスペクトログラムとMel周波数ケプストラム係数(MFCC)への変換、および事前トレーニング済みモデルの使用に関しては、ほとんど作業が行われていません。
同時に、トランスフォーマーネットワークの使用法と、2つのモダリティ(音声とトランスクリプト)を単一のニューラルネットワークに組み合わせる方法の両方に関して、ほとんど作業が行われていません。
これらの制限に対処するために、最初にいくつかの事前トレーニング済みモデルを採用し、Vision Transformer(ViT)が最高の評価結果を達成します。
次に、マルチモーダルモデルを提案します。
より具体的には、導入されたモデルには、2つのモダリティ間の関係を効果的にキャプチャするために、最終的な分類とクロスモーダル注意に対する各モダリティの影響を制御するためのゲート付きマルチモーダルユニットが含まれています。
ADReSSチャレンジデータセットで実施された広範な実験は、提案されたモデルの有効性と最先端のアプローチに対するそれらの優位性を示しています。

要約(オリジナル)

Alzheimer’s disease (AD) constitutes a neurodegenerative disease with serious consequences to peoples’ everyday lives, if it is not diagnosed early since there is no available cure. Alzheimer’s is the most common cause of dementia, which constitutes a general term for loss of memory. Due to the fact that dementia affects speech, existing research initiatives focus on detecting dementia from spontaneous speech. However, little work has been done regarding the conversion of speech data to Log-Mel spectrograms and Mel-frequency cepstral coefficients (MFCCs) and the usage of pretrained models. Concurrently, little work has been done in terms of both the usage of transformer networks and the way the two modalities, i.e., speech and transcripts, are combined in a single neural network. To address these limitations, first we employ several pretrained models, with Vision Transformer (ViT) achieving the highest evaluation results. Secondly, we propose multimodal models. More specifically, our introduced models include Gated Multimodal Unit in order to control the influence of each modality towards the final classification and crossmodal attention so as to capture in an effective way the relationships between the two modalities. Extensive experiments conducted on the ADReSS Challenge dataset demonstrate the effectiveness of the proposed models and their superiority over state-of-the-art approaches.

arxiv情報

著者 Loukas Ilias,Dimitris Askounis,John Psarras
発行日 2022-06-22 12:39:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.CV パーマリンク