Debiased Automatic Speech Recognition for Dysarthric Speech via Sample Reweighting with Sample Affinity Test

要約

深層学習に基づく自動音声認識システムは、主に経験的リスク最小化 (ERM) の下でトレーニングされます。
ERM は、健康な話者や構音障害のある話者などのグループに関係なく、データ サンプルの平均パフォーマンスを利用するため、ASR システムはグループ間のパフォーマンスの差異を認識しません。
その結果、グループ間のパフォーマンスの差が大きくなる偏った ASR システムが生成されます。
この研究では、構音障害話者に対するグループ堅牢性の観点から ASR システムを改善することを目的としています。
私たちの目標を達成するために、サンプル親和性テストによるサンプルの再重み付け (Re-SAT) という新しいアプローチを提案します。
Re-SAT は、特定のデータ サンプルのバイアス除去有用性を体系的に測定し、バイアス除去有用性に基づいたサンプルの再重み付けによってバイアスを軽減します。
実験結果は、Re-SAT が、健康な音声のパフォーマンスを低下させることなく、構音障害のある音声の ASR パフォーマンスの向上に貢献することを示しています。

要約(オリジナル)

Automatic speech recognition systems based on deep learning are mainly trained under empirical risk minimization (ERM). Since ERM utilizes the averaged performance on the data samples regardless of a group such as healthy or dysarthric speakers, ASR systems are unaware of the performance disparities across the groups. This results in biased ASR systems whose performance differences among groups are severe. In this study, we aim to improve the ASR system in terms of group robustness for dysarthric speakers. To achieve our goal, we present a novel approach, sample reweighting with sample affinity test (Re-SAT). Re-SAT systematically measures the debiasing helpfulness of the given data sample and then mitigates the bias by debiasing helpfulness-based sample reweighting. Experimental results demonstrate that Re-SAT contributes to improved ASR performance on dysarthric speech without performance degradation on healthy speech.

arxiv情報

著者 Eungbeom Kim,Yunkee Chae,Jaeheon Sim,Kyogu Lee
発行日 2023-06-27 13:19:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク