要約
自然な音声には豊富な変動源があるため、現在のデータ集約型音声認識テクノロジーには重大な課題が生じています。
話者レベルと環境レベルの多様性の両方をモデル化するために、この論文では、Conformer ASR モデルに対する新しいベイジアン因数分解話者環境適応トレーニングおよびテスト時間適応アプローチを提案します。
スピーカーと環境レベルの特性は、コンパクトな隠れ出力変換を使用して個別にモデル化され、線形または階層的に結合されてスピーカーと環境の任意の組み合わせが表現されます。
ベイジアン学習は、適応パラメーターの不確実性をモデル化するためにさらに利用されます。
300 時間の WHAM ノイズで破損した配電盤データに関する実験では、因数分解適応がベースラインと話者ラベルのみを適応した適合者を常に上回り、絶対語誤り率が最大 3.1% (相対 10.4%) 減少することが示唆されています。
さらなる分析により、提案された方法が目に見えないスピーカー環境条件に迅速に適応する可能性があることが示されました。
要約(オリジナル)
Rich sources of variability in natural speech present significant challenges to current data intensive speech recognition technologies. To model both speaker and environment level diversity, this paper proposes a novel Bayesian factorised speaker-environment adaptive training and test time adaptation approach for Conformer ASR models. Speaker and environment level characteristics are separately modeled using compact hidden output transforms, which are then linearly or hierarchically combined to represent any speaker-environment combination. Bayesian learning is further utilized to model the adaptation parameter uncertainty. Experiments on the 300-hr WHAM noise corrupted Switchboard data suggest that factorised adaptation consistently outperforms the baseline and speaker label only adapted Conformers by up to 3.1% absolute (10.4% relative) word error rate reductions. Further analysis shows the proposed method offers potential for rapid adaption to unseen speaker-environment conditions.
arxiv情報
著者 | Jiajun Deng,Guinan Li,Xurong Xie,Zengrui Jin,Mingyu Cui,Tianzi Wang,Shujie Hu,Mengzhe Geng,Xunying Liu |
発行日 | 2023-06-26 11:32:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google