要約
ストリーミング モデルは、リアルタイム音声強調ツールの重要なコンポーネントです。
ストリーミング方式では、音声強調モデルが将来の情報のごく一部のコンテキストのみを使用するように制約されます。
その結果、低遅延ストリーミングのセットアップは一般に困難なタスクであると考えられており、モデルの品質に重大な悪影響を及ぼします。
ただし、ストリーミング生成の逐次的な性質により、自己回帰の自然な可能性が生じます。つまり、現在の予測を作成しながら以前の予測を利用するということです。
自己回帰モデルをトレーニングする従来の方法は教師による強制ですが、その主な欠点は、品質の大幅な低下につながる可能性があるトレーニングと推論の不一致にあります。
この研究では、自己回帰低遅延音声強調モデルをトレーニングするための簡単で効果的な代替手法を提案します。
提案されたアプローチが、さまざまなアーキテクチャとトレーニング シナリオにわたって安定した改善につながることを実証します。
要約(オリジナル)
Streaming models are an essential component of real-time speech enhancement tools. The streaming regime constrains speech enhancement models to use only a tiny context of future information. As a result, the low-latency streaming setup is generally considered a challenging task and has a significant negative impact on the model’s quality. However, the sequential nature of streaming generation offers a natural possibility for autoregression, that is, utilizing previous predictions while making current ones. The conventional method for training autoregressive models is teacher forcing, but its primary drawback lies in the training-inference mismatch that can lead to a substantial degradation in quality. In this study, we propose a straightforward yet effective alternative technique for training autoregressive low-latency speech enhancement models. We demonstrate that the proposed approach leads to stable improvement across diverse architectures and training scenarios.
arxiv情報
著者 | Pavel Andreev,Nicholas Babaev,Azat Saginbaev,Ivan Shchekotov,Aibek Alanov |
発行日 | 2023-06-27 13:54:39+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google