Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study

要約

この研究では、自動音声認識 (ASR) のエンコーダーとして再利用された場合の、事前トレーニング済み言語モデル (PLM) 内のトランスフォーマーの有効性を詳しく調べます。
私たちの基礎的な仮説は、最初はテキストベースのコーパスでトレーニングされたにもかかわらず、これらのトランスフォーマーは入力シーケンスから効果的な特徴を抽出する驚くべき能力を備えていると仮定しています。
この固有の機能は音声データに転送可能であり、それによって ASR の音響モデリング機能が強化されると我々は主張します。
厳密な実証分析を通じて、事前トレーニング済み LM のトランスフォーマーを組み込むと、さまざまな ASR タスクにわたって文字誤り率 (CER) と単語誤り率 (WER) が顕著に改善することが調査結果から明らかになりました。
特に、ASR エンコーダを初期化するための有利な開始点として機能します。
さらに、これらのトランスフォーマーを確立された ASR エンコーダーに統合すると、特に意味論的な深い理解が重要なシナリオでパフォーマンスを大幅に向上できることがわかりました。
これは、事前トレーニングされたトランスフォーマーに組み込まれたセマンティック能力を活用して ASR システムの機能を向上させる可能性を強調しています。

要約(オリジナル)

In this study, we delve into the efficacy of transformers within pre-trained language models (PLMs) when repurposed as encoders for Automatic Speech Recognition (ASR). Our underlying hypothesis posits that, despite being initially trained on text-based corpora, these transformers possess a remarkable capacity to extract effective features from the input sequence. This inherent capability, we argue, is transferrable to speech data, thereby augmenting the acoustic modeling ability of ASR. Through rigorous empirical analysis, our findings reveal a notable improvement in Character Error Rate (CER) and Word Error Rate (WER) across diverse ASR tasks when transformers from pre-trained LMs are incorporated. Particularly, they serve as an advantageous starting point for initializing ASR encoders. Furthermore, we uncover that these transformers, when integrated into a well-established ASR encoder, can significantly boost performance, especially in scenarios where profound semantic comprehension is pivotal. This underscores the potential of leveraging the semantic prowess embedded within pre-trained transformers to advance ASR systems’ capabilities.

arxiv情報

著者 Keyu An,Shiliang Zhang,Zhijie Yan
発行日 2024-09-26 11:31:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク