要約
自動音声認識 (ASR) は、一般的な非重複環境で適切に機能しますが、マルチスピーカーの重複音声認識でパフォーマンスを維持することは依然として困難です。
最近の調査では、ASR モデルのエンコーダーがさまざまなレイヤーでさまざまなレベルの情報をキャプチャすることが明らかになりました。下位レイヤーはより多くの音響情報を持ち、上位レイヤーはより言語的な情報を持つ傾向があります。
これは、2 つの適切なレイヤー間で混合音声埋め込みを分離することにより、マルチスピーカー シナリオ用に十分にトレーニングされた ASR モデルを強化するためのサイドカー セパレーターを開発するきっかけになります。
サイドカーを搭載した wav2vec 2.0 ベースの ASR モデルで実験を行いました。
元のモデルのパラメーターを凍結し、サイドカーのみをトレーニングすることにより (8.7 M、すべてのパラメーターの 8.4%)、提案されたアプローチは、2 人のスピーカーが混在する LibriMix データセットで、以前の最先端技術よりも大幅に優れています。
10.36% の単語誤り率 (WER) に達する。
トレーニングが制限されている場合、LibriSpeechMix データセットで同等の結果 (7.56%) が得られます。
要約(オリジナル)
Although automatic speech recognition (ASR) can perform well in common non-overlapping environments, sustaining performance in multi-speaker overlapping speech recognition remains challenging. Recent research revealed that ASR model’s encoder captures different levels of information with different layers — the lower layers tend to have more acoustic information, and the upper layers more linguistic. This inspires us to develop a Sidecar separator to empower a well-trained ASR model for multi-speaker scenarios by separating the mixed speech embedding between two suitable layers. We experimented with a wav2vec 2.0-based ASR model with a Sidecar mounted. By freezing the parameters of the original model and training only the Sidecar (8.7 M, 8.4% of all parameters), the proposed approach outperforms the previous state-of-the-art by a large margin for the 2-speaker mixed LibriMix dataset, reaching a word error rate (WER) of 10.36%; and obtains comparable results (7.56%) for LibriSpeechMix dataset when limited training.
arxiv情報
著者 | Lingwei Meng,Jiawen Kang,Mingyu Cui,Yuejiao Wang,Xixin Wu,Helen Meng |
発行日 | 2023-02-20 11:09:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google