要約
現在の ASR システムは主に発話レベルでトレーニングおよび評価されます。
長距離の相互発話コンテキストを組み込むことができます。
重要なタスクは、最も関連性の高い歴史コンテキストの適切でコンパクトな表現を導き出すことです。
長距離コンテキストからの情報を減衰させる LSTM-RNN エンコード履歴、またはトランスコンテキスト埋め込みのフレーム レベル連結に基づく以前の研究とは対照的に、この論文では、コンパクトな低次元の相互発話コンテキスト特徴が Conformer-Transducer Encoder で学習されます。
効率的にキャッシュされた先行発話履歴ベクトルに適用される、特別に設計されたアテンション プーリング レイヤーを使用します。
1000 時間のギガスピーチ コーパスに関する実験では、提案されたコンテキスト化されたストリーミング Conformer-Transducers が、開発およびテストで絶対値 0.7% ~ 0.5% (相対値 4.3% ~ 3.1%) という統計的に有意な WER 削減を伴い、発話の内部コンテキストのみを使用してベースラインを上回るパフォーマンスを示していることが実証されています。
データ。
要約(オリジナル)
Current ASR systems are mainly trained and evaluated at the utterance level. Long range cross utterance context can be incorporated. A key task is to derive a suitable compact representation of the most relevant history contexts. In contrast to previous researches based on either LSTM-RNN encoded histories that attenuate the information from longer range contexts, or frame level concatenation of transformer context embeddings, in this paper compact low-dimensional cross utterance contextual features are learned in the Conformer-Transducer Encoder using specially designed attention pooling layers that are applied over efficiently cached preceding utterances history vectors. Experiments on the 1000-hr Gigaspeech corpus demonstrate that the proposed contextualized streaming Conformer-Transducers outperform the baseline using utterance internal context only with statistically significant WER reductions of 0.7% to 0.5% absolute (4.3% to 3.1% relative) on the dev and test data.
arxiv情報
著者 | Mingyu Cui,Jiawen Kang,Jiajun Deng,Xi Yin,Yutao Xie,Xie Chen,Xunying Liu |
発行日 | 2023-06-26 02:48:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google