要約
自己教師あり学習の台頭により、自動音声認識 (ASR) システムは現在、さまざまなデータセットで人間に近いパフォーマンスを達成しています。
ただし、それらはまだ一般化機能に欠けており、アクセント バリエーションなどのドメイン シフトに対して堅牢ではありません。
この作業では、4 つの異なるフランス語のアクセントを表す音声オーディオを使用して、事前トレーニング済みの ASR モデルの堅牢性を向上させる微調整データセットを作成します。
トレーニング セットにさまざまなアクセントを組み込むことで、ドメイン内とドメイン外の両方の改善が得られます。
私たちの数値実験は、標準フランス語で良好なパフォーマンスを維持しながら、単一ドメインのトレーニングと比較して、アフリカとベルギーのアクセントでエラー率を最大 25% (相対的に) 削減できることを示しています。
要約(オリジナル)
Thanks to the rise of self-supervised learning, automatic speech recognition (ASR) systems now achieve near-human performance on a wide variety of datasets. However, they still lack generalization capability and are not robust to domain shifts like accent variations. In this work, we use speech audio representing four different French accents to create fine-tuning datasets that improve the robustness of pre-trained ASR models. By incorporating various accents in the training set, we obtain both in-domain and out-of-domain improvements. Our numerical experiments show that we can reduce error rates by up to 25% (relative) on African and Belgian accents compared to single-domain training while keeping a good performance on standard French.
arxiv情報
著者 | Lucas Maison,Yannick Estève |
発行日 | 2023-03-14 14:10:16+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google