要約
発話間の音響的類似性を活用することにより、グラフベースのラベル伝播を使用して ASR N-best 仮説を再スコアリングするための新しいアプローチを提案します。
従来のニューラル言語モデル (LM) ベースの ASR 再スコアリング/再ランキング モデルとは対照的に、私たちのアプローチは音響情報に焦点を当て、個別ではなく発話間で協調的に再スコアリングを行います。
VCTK データセットの実験は、私たちのアプローチが一貫して ASR のパフォーマンスを向上させ、異なるアクセントを持つ話者グループ間の公平性を向上させることを示しています。
私たちのアプローチは、新しいドメイン固有またはアクセント固有のモデルをトレーニングする必要なく、ASR システムの多数派バイアスを軽減するための低コストのソリューションを提供します。
要約(オリジナル)
We propose a novel approach for ASR N-best hypothesis rescoring with graph-based label propagation by leveraging cross-utterance acoustic similarity. In contrast to conventional neural language model (LM) based ASR rescoring/reranking models, our approach focuses on acoustic information and conducts the rescoring collaboratively among utterances, instead of individually. Experiments on the VCTK dataset demonstrate that our approach consistently improves ASR performance, as well as fairness across speaker groups with different accents. Our approach provides a low-cost solution for mitigating the majoritarian bias of ASR systems, without the need to train new domain- or accent-specific models.
arxiv情報
著者 | Srinath Tankasala,Long Chen,Andreas Stolcke,Anirudh Raju,Qianli Deng,Chander Chandak,Aparna Khare,Roland Maas,Venkatesh Ravichandran |
発行日 | 2023-03-27 12:08:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google