CogniVoice: Multimodal and Multilingual Fusion Networks for Mild Cognitive Impairment Assessment from Spontaneous Speech

要約

軽度認知障害 (MCI) は、記憶力と認知能力の顕著な低下を特徴とする病状であり、個人の日常活動に影響を与える可能性があります。
この論文では、音声データとその文字起こしを分析することで MCI を検出し、ミニ精神状態検査 (MMSE) スコアを推定するための新しい多言語およびマルチモーダル フレームワークである CogniVoice を紹介します。
CogniVoice の主要コンポーネントは、ショートカット ソリューションへの依存を軽減する「専門家の製品」に基づくアンサンブル マルチモーダルおよび多言語ネットワークです。
TAUKADIAL チャレンジからの英語と中国語の両方を含む包括的なデータセットを使用することで、CogniVoice は、MCI 分類タスクと MMSE 回帰タスクで最もパフォーマンスの高いベースライン モデルを F1 と RMSE でそれぞれ 2.8 ポイントと 4.1 ポイント上回り、異なる言語グループ間のパフォーマンスのギャップを効果的に削減できます。
F1では0.7ポイント差。

要約(オリジナル)

Mild Cognitive Impairment (MCI) is a medical condition characterized by noticeable declines in memory and cognitive abilities, potentially affecting individual’s daily activities. In this paper, we introduce CogniVoice, a novel multilingual and multimodal framework to detect MCI and estimate Mini-Mental State Examination (MMSE) scores by analyzing speech data and its textual transcriptions. The key component of CogniVoice is an ensemble multimodal and multilingual network based on “Product of Experts” that mitigates reliance on shortcut solutions. Using a comprehensive dataset containing both English and Chinese languages from TAUKADIAL challenge, CogniVoice outperforms the best performing baseline model on MCI classification and MMSE regression tasks by 2.8 and 4.1 points in F1 and RMSE respectively, and can effectively reduce the performance gap across different language groups by 0.7 points in F1.

arxiv情報

著者 Jiali Cheng,Mohamed Elgaar,Nidhi Vakil,Hadi Amiri
発行日 2024-07-18 16:38:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク