Dysarthria Normalization via Local Lie Group Transformations for Robust ASR

要約

スペクトログラムのローカルリーグループ変換を使用して、ダイサルトリック音声を正規化するためのジオメトリ駆動型の方法を提示します。
時間、周波数、および振幅の歪みは、滑らかで反転可能な変形としてモデル化され、スカラーフィールドによってパラメーター化され、指数マップを介して適用されます。
ニューラルネットワークは、病理学的データを使用することなく、典型的な音声の合成歪みからこれらのフィールドを推測するように訓練されています。
テスト時に、モデルは、実際のダイサルトリック入力と実際の逆の逆を適用します。
ゼロショットの一般化にもかかわらず、クリーンな音声で劣化することなく、挑戦的なトーゴサンプルで最大16パーセントポイントの減少を含む、かなりのASRの利益が観察されます。
この作業は、運動言語障害の下で堅牢な音声認識のための原則的で解釈可能なアプローチを紹介します

要約(オリジナル)

We present a geometry-driven method for normalizing dysarthric speech using local Lie group transformations of spectrograms. Time, frequency, and amplitude distortions are modeled as smooth, invertible deformations, parameterized by scalar fields and applied via exponential maps. A neural network is trained to infer these fields from synthetic distortions of typical speech-without using any pathological data. At test time, the model applies an approximate inverse to real dysarthric inputs. Despite zero-shot generalization, we observe substantial ASR gains, including up to 16 percentage points WER reduction on challenging TORGO samples, with no degradation on clean speech. This work introduces a principled, interpretable approach for robust speech recognition under motor speech disorders

arxiv情報

著者 Mikhail Osipov
発行日 2025-04-16 17:41:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク