Decoder-only Architecture for Streaming End-to-end Speech Recognition

要約

デコーダ専用言語モデル (LM) は、自動音声認識 (ASR) を含む音声処理タスクにうまく採用されています。
LM は豊かな表現力を持ち、効率よく演奏します。
この効率は、ASR のストリーミング アプリケーションに適した特性です。
この研究では、ブロック単位のストリーミング ASR にデコーダのみのアーキテクチャを使用することを提案します。
私たちのアプローチでは、音声特徴は CTC 出力とブロック単位の音声サブネットワークを使用したコンテキスト埋め込みを使用して圧縮され、プロンプトとしてデコーダに順次提供されます。
デコーダは、各ブロックで出力トークンを即座に推定します。
この目的のために、ブロック単位の処理によって引き起こされる切り捨てられたプロンプトに対してモデルを堅牢にするために、ランダムな長さのプレフィックス プロンプトを使用する新しいトレーニング スキームも提案します。
実験的な比較では、私たちが提案するデコーダのみのストリーミング ASR は、ベースライン モデルの 2 倍の速度でありながら、LibriSpeech テストとその他のセットで 8% の相対的な単語誤り率の削減を達成することが示されています。

要約(オリジナル)

Decoder-only language models (LMs) have been successfully adopted for speech-processing tasks including automatic speech recognition (ASR). The LMs have ample expressiveness and perform efficiently. This efficiency is a suitable characteristic for streaming applications of ASR. In this work, we propose to use a decoder-only architecture for blockwise streaming ASR. In our approach, speech features are compressed using CTC output and context embedding using blockwise speech subnetwork, and are sequentially provided as prompts to the decoder. The decoder estimates the output tokens promptly at each block. To this end, we also propose a novel training scheme using random-length prefix prompts to make the model robust to the truncated prompts caused by blockwise processing. An experimental comparison shows that our proposed decoder-only streaming ASR achieves 8% relative word error rate reduction in the LibriSpeech test-other set while being twice as fast as the baseline model.

arxiv情報

著者 Emiru Tsunoo,Hayato Futami,Yosuke Kashiwagi,Siddhant Arora,Shinji Watanabe
発行日 2024-08-01 13:55:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク