要約
自動音声認識 (ASR) システムは通常、手作りの特徴抽出パイプラインを使用します。
固有の情報損失を回避し、音声から転写テキストまでのより一貫したモデリングを実現するには、ニューラル生波形特徴抽出器 (FE) が魅力的なアプローチです。
また、最近大きな人気を得ている wav2vec 2.0 モデルは、音声波形に直接作用する畳み込み FE を使用します。
ただし、文献ではまだ十分に研究されていません。
この研究では、コネクショニスト時間分類 (CTC) ASR モデルの標準的な特徴抽出方法を置き換えるその機能を研究し、それを代替のニューラル FE と比較します。
どちらも LibriSpeech ベンチマークで従来の FE と競合することを示し、個々のコンポーネントの効果を分析します。
さらに、学習したフィルターを分析し、ASR システムにとって最も重要な情報が一連のバンドパス フィルターによって取得されることを示します。
要約(オリジナル)
Automatic speech recognition (ASR) systems typically use handcrafted feature extraction pipelines. To avoid their inherent information loss and to achieve more consistent modeling from speech to transcribed text, neural raw waveform feature extractors (FEs) are an appealing approach. Also the wav2vec 2.0 model, which has recently gained large popularity, uses a convolutional FE which operates directly on the speech waveform. However, it is not yet studied extensively in the literature. In this work, we study its capability to replace the standard feature extraction methods in a connectionist temporal classification (CTC) ASR model and compare it to an alternative neural FE. We show that both are competitive with traditional FEs on the LibriSpeech benchmark and analyze the effect of the individual components. Furthermore, we analyze the learned filters and show that the most important information for the ASR system is obtained by a set of bandpass filters.
arxiv情報
著者 | Peter Vieting,Ralf Schlüter,Hermann Ney |
発行日 | 2023-08-08 14:29:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google