Echotune: A Modular Extractor Leveraging the Variable-Length Nature of Speech in ASR Tasks

要約

Transformer アーキテクチャは自動音声認識 (ASR) タスクに非常に効果的であることが証明されており、この分野の膨大な研究の基礎コンポーネントとなっています。
歴史的に、多くのアプローチは固定長のアテンション ウィンドウに依存していましたが、これは長さと複雑さが異なる音声サンプルでは問題となり、データの過度の平滑化と本質的な長期接続性の無視につながります。
この制限に対処するために、音声サンプルの複雑さと長さの範囲に対応する可変長アテンション メカニズムを備えた軽快なモジュールである Echo-MSA を導入します。
このモジュールは、フレームや音素から単語や談話に至るまで、さまざまな粒度で音声特徴を抽出する柔軟性を提供します。
提案された設計は音声の可変長の特徴を捉え、固定長の注意の限界に対処します。
私たちの評価では、従来のアテンションと Echo-MSA モジュール出力を融合する動的なゲート メカニズムによって補完された並列アテンション アーキテクチャを活用しています。
私たちの研究による経験的証拠は、Echo-MSA をプライマリ モデルのトレーニング レジームに統合すると、元のモデルの本質的な安定性を維持しながら、単語誤り率 (WER) のパフォーマンスが大幅に向上することを明らかにしています。

要約(オリジナル)

The Transformer architecture has proven to be highly effective for Automatic Speech Recognition (ASR) tasks, becoming a foundational component for a plethora of research in the domain. Historically, many approaches have leaned on fixed-length attention windows, which becomes problematic for varied speech samples in duration and complexity, leading to data over-smoothing and neglect of essential long-term connectivity. Addressing this limitation, we introduce Echo-MSA, a nimble module equipped with a variable-length attention mechanism that accommodates a range of speech sample complexities and durations. This module offers the flexibility to extract speech features across various granularities, spanning from frames and phonemes to words and discourse. The proposed design captures the variable length feature of speech and addresses the limitations of fixed-length attention. Our evaluation leverages a parallel attention architecture complemented by a dynamic gating mechanism that amalgamates traditional attention with the Echo-MSA module output. Empirical evidence from our study reveals that integrating Echo-MSA into the primary model’s training regime significantly enhances the word error rate (WER) performance, all while preserving the intrinsic stability of the original model.

arxiv情報

著者 Sizhou Chen,Songyang Gao,Sen Fang
発行日 2023-09-14 14:51:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク