Applications of Artificial Intelligence for Cross-language Intelligibility Assessment of Dysarthric Speech

要約

目的:音声明瞭度は、ダイサルリアの評価と管理における重要な結果ですが、ほとんどの研究と臨床慣行は英語に焦点を当てており、言語全体の適用性を制限しています。
この解説では、概念的なフレームワークと、それがどのように実装できるかのデモンストレーションを紹介します – 人工知能(AI)をレバレッジ化して、ダンガージ横断的な視認性評価のダイナリスリックスピーチを前進させます。
方法:ダイサルトリック音声を音響音量化表現にコードする普遍的な音声モデルで構成される2層の概念的なフレームワークを提案し、その後、ターゲット言語の音韻または韻律構造内のこれらの表現を解釈する言語固有の明瞭度評価モデルが続きます。
さらに、データ不足、注釈の複雑さ、およびダイサルトリックスピーチに関する限られた言語洞察を含む、ダイナリクロススターのスピーチの障壁の障壁を特定し、これらの課題を克服するための潜在的なAI駆動型ソリューションの概要を示します。
結論:ダンガージ横断的な表現性評価の前進は、ダイサルトリック音声の評価には、効率的でスケーラブルなモデルが必要でありながら、正確で言語に敏感な評価を確保するための言語規則によって制約されているモデルが必要です。
AIの最近の進歩は、この統合をサポートするための基礎ツールを提供し、一般化可能な言語的に情報に基づいた評価フレームワークに向けて将来の方向を形成します。

要約(オリジナル)

Purpose: Speech intelligibility is a critical outcome in the assessment and management of dysarthria, yet most research and clinical practices have focused on English, limiting their applicability across languages. This commentary introduces a conceptual framework–and a demonstration of how it can be implemented–leveraging artificial intelligence (AI) to advance cross-language intelligibility assessment of dysarthric speech. Method: We propose a two-tiered conceptual framework consisting of a universal speech model that encodes dysarthric speech into acoustic-phonetic representations, followed by a language-specific intelligibility assessment model that interprets these representations within the phonological or prosodic structures of the target language. We further identify barriers to cross-language intelligibility assessment of dysarthric speech, including data scarcity, annotation complexity, and limited linguistic insights into dysarthric speech, and outline potential AI-driven solutions to overcome these challenges. Conclusion: Advancing cross-language intelligibility assessment of dysarthric speech necessitates models that are both efficient and scalable, yet constrained by linguistic rules to ensure accurate and language-sensitive assessment. Recent advances in AI provide the foundational tools to support this integration, shaping future directions toward generalizable and linguistically informed assessment frameworks.

arxiv情報

著者 Eunjung Yeo,Julie Liss,Visar Berisha,David Mortensen
発行日 2025-05-06 05:14:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク