Zero-Shot Multi-Lingual Speaker Verification in Clinical Trials

要約

臨床試験には相当数の臨床医、患者、データ収集環境が関与するため、優れた品質のデータを収集することは大きな課題となります。
臨床試験では、認知障害や精神的健康障害を検出し監視するために、患者の音声データに基づいて評価が行われます。
私たちは、登録された患者の身元を確認し、同じ治験に複数回登録しようとする個人を特定して除外するために、これらの音声録音を使用することを提案します。
臨床研究はさまざまな国にまたがって実施されることが多いため、追加の開発作業を行わずにさまざまな言語で話者認証を実行できるシステムの作成が不可欠です。
英語、ドイツ語、デンマーク語、スペイン語、アラビア語を話す言語障害のある患者を登録してテストすることで、事前トレーニングされた TitaNet、ECAPA-TDNN、SpeakerNet モデルを評価します。
私たちの結果は、テストされたモデルが臨床話者に効果的に一般化できることを示しており、ヨーロッパ言語の EER は 2.7% 未満、アラビア語の EER は 8.26% 未満でした。
これは、幅広い言語および方言で使用できる、認知およびメンタルヘルスの臨床試験向けの、より汎用性が高く効率的な話者検証システムを開発する上で重要な一歩となり、複数言語の話者検証システムの開発に必要な労力を大幅に削減します。
また、音声タスクとトライアルに関与する話者の数がパフォーマンスにどのような影響を与えるかを評価し、音声タスクの種類がモデルのパフォーマンスに影響を与えることを示します。

要約(オリジナル)

Due to the substantial number of clinicians, patients, and data collection environments involved in clinical trials, gathering data of superior quality poses a significant challenge. In clinical trials, patients are assessed based on their speech data to detect and monitor cognitive and mental health disorders. We propose using these speech recordings to verify the identities of enrolled patients and identify and exclude the individuals who try to enroll multiple times in the same trial. Since clinical studies are often conducted across different countries, creating a system that can perform speaker verification in diverse languages without additional development effort is imperative. We evaluate pre-trained TitaNet, ECAPA-TDNN, and SpeakerNet models by enrolling and testing with speech-impaired patients speaking English, German, Danish, Spanish, and Arabic languages. Our results demonstrate that tested models can effectively generalize to clinical speakers, with less than 2.7% EER for European Languages and 8.26% EER for Arabic. This represents a significant step in developing more versatile and efficient speaker verification systems for cognitive and mental health clinical trials that can be used across a wide range of languages and dialects, substantially reducing the effort required to develop speaker verification systems for multiple languages. We also evaluate how speech tasks and number of speakers involved in the trial influence the performance and show that the type of speech tasks impacts the model performance.

arxiv情報

著者 Ali Akram,Marija Stanojevic,Malikeh Ehghaghi,Jekaterina Novikova
発行日 2024-04-02 14:19:30+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク