The effect of speech pathology on automatic speaker verification — a large-scale study

要約

データ駆動型音声処理の課題を乗り越える際の主なハードルの 1 つは、信頼できる病理学的音声データにアクセスすることです。
公開データセットは解決策を提供しているように見えますが、再識別攻撃によって患者の健康情報が意図せず漏洩する可能性があるという固有のリスクが伴います。
さまざまな年齢層や言語障害にわたる n=3,800 人以上の被験者を含む包括的な現実世界の病理学的音声コーパスを使用し、深層学習による自動話者検証 (ASV) アプローチを採用しました。
その結果、平均等誤り率 (EER) は 0.89%、標準偏差は 0.06% となり、従来のベンチマークを上回りました。
私たちの包括的な評価は、病的な音声は全体的に健康な音声と比較してプライバシー侵害のリスクが高まることを示しています。
具体的には、発声障害のある成人は再認識のリスクが高いのに対し、構音障害などの症状では健康な話者と同等の結果が得られます。
重要なのは、音声明瞭度は ASV システムのパフォーマンス指標に影響を与えないことです。
小児の症例、特に口唇口蓋裂の症例では、記録環境が再識別において決定的な役割を果たします。
病理学的タイプ間のデータを統合すると、EER が顕著に減少しました。これは、ASV の有効性が対数的に増加し、ASV における病理学的多様性の潜在的な利点を示唆しています。
本質的に、この研究は病的な音声と話者認証の間のダイナミクスに光を当て、デジタル化が進む医療時代において患者の機密性を守る上での重要な役割を強調しています。

要約(オリジナル)

Navigating the challenges of data-driven speech processing, one of the primary hurdles is accessing reliable pathological speech data. While public datasets appear to offer solutions, they come with inherent risks of potential unintended exposure of patient health information via re-identification attacks. Using a comprehensive real-world pathological speech corpus, with over n=3,800 test subjects spanning various age groups and speech disorders, we employed a deep-learning-driven automatic speaker verification (ASV) approach. This resulted in a notable mean equal error rate (EER) of 0.89% with a standard deviation of 0.06%, outstripping traditional benchmarks. Our comprehensive assessments demonstrate that pathological speech overall faces heightened privacy breach risks compared to healthy speech. Specifically, adults with dysphonia are at heightened re-identification risks, whereas conditions like dysarthria yield results comparable to those of healthy speakers. Crucially, speech intelligibility does not influence the ASV system’s performance metrics. In pediatric cases, particularly those with cleft lip and palate, the recording environment plays a decisive role in re-identification. Merging data across pathological types led to a marked EER decrease, suggesting the potential benefits of pathological diversity in ASV, accompanied by a logarithmic boost in ASV effectiveness. In essence, this research sheds light on the dynamics between pathological speech and speaker verification, emphasizing its crucial role in safeguarding patient confidentiality in our increasingly digitized healthcare era.

arxiv情報

著者 Soroosh Tayebi Arasteh,Tobias Weise,Maria Schuster,Elmar Noeth,Andreas Maier,Seung Hee Yang
発行日 2023-11-22 14:10:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク