Context-aware attention layers coupled with optimal transport domain adaptation and multimodal fusion methods for recognizing dementia from spontaneous speech

要約

アルツハイマー病 (AD) は複雑な神経認知疾患を構成し、認知症の主な原因です。
自発的な発話による認知症の診断を対象とした多くの研究が提案されていますが、まだ限界があります。
既存の最先端のアプローチは、マルチモーダルな手法を提案し、言語モデルと音響モデルを個別にトレーニングし、多数決のアプローチを採用し、入力レベル (つまり初期融合) で、またはトレーニング中にさまざまなモダリティの表現を連結します。

また、それらの中には、コンテキスト情報を考慮せずに表現間の依存関係を計算するセルフ アテンション レイヤーを採用しているものもあります。
さらに、モデルのキャリブレーションを考慮したこれまでの研究はありません。
これらの制限に対処するために、我々は、モーダル内およびクロスモーダル相互作用を捕捉する、アルツハイマー病患者を検出するためのいくつかの新しい方法を提案します。
まず、オーディオ ファイルを log-Mel スペクトログラム、そのデルタ、およびデルタデルタに変換し、この方法で 3 つのチャネルで構成されるオーディオ ファイルごとに画像を作成します。
次に、各トランスクリプトと画像をそれぞれ BERT モデルと DeiT モデルに渡します。
その後、コンテキストベースのセルフアテンション層、ゲートモデルを使用したセルフアテンション層、および最適なトランスポートドメイン適応方法が、モーダル内およびモーダル間のインタラクションをキャプチャするために使用されます。
最後に、セルフアテンション機能とクロスアテンション機能を融合する 2 つの方法を活用します。
モデルのキャリブレーションを考慮するために、ラベルのスムージングを適用します。
私たちはパフォーマンスとキャリブレーションの両方のメトリクスを使用します。
ADReSS および ADReSSo Challenge データセットに対して実施された実験では、既存の研究イニシアチブに対する当社の導入アプローチの有効性が示されており、当社の最高パフォーマンスのモデルは精度と F1 スコアがそれぞれ最大 91.25% および 91.06% に達しました。

要約(オリジナル)

Alzheimer’s disease (AD) constitutes a complex neurocognitive disease and is the main cause of dementia. Although many studies have been proposed targeting at diagnosing dementia through spontaneous speech, there are still limitations. Existing state-of-the-art approaches, which propose multimodal methods, train separately language and acoustic models, employ majority-vote approaches, and concatenate the representations of the different modalities either at the input level, i.e., early fusion, or during training. Also, some of them employ self-attention layers, which calculate the dependencies between representations without considering the contextual information. In addition, no prior work has taken into consideration the model calibration. To address these limitations, we propose some new methods for detecting AD patients, which capture the intra- and cross-modal interactions. First, we convert the audio files into log-Mel spectrograms, their delta, and delta-delta and create in this way an image per audio file consisting of three channels. Next, we pass each transcript and image through BERT and DeiT models respectively. After that, context-based self-attention layers, self-attention layers with a gate model, and optimal transport domain adaptation methods are employed for capturing the intra- and inter-modal interactions. Finally, we exploit two methods for fusing the self and cross-attention features. For taking into account the model calibration, we apply label smoothing. We use both performance and calibration metrics. Experiments conducted on the ADReSS and ADReSSo Challenge datasets indicate the efficacy of our introduced approaches over existing research initiatives with our best performing model reaching Accuracy and F1-score up to 91.25% and 91.06% respectively.

arxiv情報

著者 Loukas Ilias,Dimitris Askounis
発行日 2023-07-26 20:53:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク