要約
ミリ波 (mmWave) ベースの音声認識により、会議音声の書き起こしや盗聴などのオーディオ関連アプリケーションの可能性が高まります。
ただし、実際のシナリオでの実用性を考慮すると、遅延と認識可能な語彙サイズは、無視できない 2 つの重要な要素です。
この論文では、語彙サイズが 13,000 ワードを超えるストリーミング自動音声認識 (ASR) 用の初のミリ波ベースのシステムである Radio2Text を提案します。
Radio2Text は、音声関連の特徴の表現を効果的に学習できるカスタマイズされたストリーミング Transformer に基づいており、大量の語彙を備えたストリーミング ASR への道を開きます。
将来の入力全体にアクセスできないストリーミング ネットワークの欠点を軽減するために、重みの継承を通じて非ストリーミング トランスフォーマーから調整されたストリーミング トランスフォーマーへのグローバル コンテキストに関連する特徴知識の転送を容易にするガイダンス初期化を提案します。
さらに、認識性能に対する低品質のミリ波信号の悪影響を軽減するために、クロスモーダル KD と呼ばれる知識蒸留 (KD) に基づくクロスモーダル構造を提案します。
クロスモーダル KD では、オーディオ ストリーミング トランスフォーマーは、カスタマイズされたラジオ ストリーミング トランスフォーマーのトレーニングを監視するために、有益で正確な音声情報を継承する機能と応答のガイダンスを提供します。
実験結果は、Radio2Text が 13,000 単語を超える語彙の認識において、文字エラー率 5.7%、単語エラー率 9.4% を達成できることを示しています。
要約(オリジナル)
Millimeter wave (mmWave) based speech recognition provides more possibility for audio-related applications, such as conference speech transcription and eavesdropping. However, considering the practicality in real scenarios, latency and recognizable vocabulary size are two critical factors that cannot be overlooked. In this paper, we propose Radio2Text, the first mmWave-based system for streaming automatic speech recognition (ASR) with a vocabulary size exceeding 13,000 words. Radio2Text is based on a tailored streaming Transformer that is capable of effectively learning representations of speech-related features, paving the way for streaming ASR with a large vocabulary. To alleviate the deficiency of streaming networks unable to access entire future inputs, we propose the Guidance Initialization that facilitates the transfer of feature knowledge related to the global context from the non-streaming Transformer to the tailored streaming Transformer through weight inheritance. Further, we propose a cross-modal structure based on knowledge distillation (KD), named cross-modal KD, to mitigate the negative effect of low quality mmWave signals on recognition performance. In the cross-modal KD, the audio streaming Transformer provides feature and response guidance that inherit fruitful and accurate speech information to supervise the training of the tailored radio streaming Transformer. The experimental results show that our Radio2Text can achieve a character error rate of 5.7% and a word error rate of 9.4% for the recognition of a vocabulary consisting of over 13,000 words.
arxiv情報
著者 | Running Zhao,Jiangtao Yu,Hang Zhao,Edith C. H. Ngai |
発行日 | 2023-08-16 03:31:30+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google