HydraFormer: One Encoder For All Subsampling Rates

要約

自動音声認識では、多様なシナリオに取り組むためにサブサンプリングが不可欠です。
ただし、単一のサブサンプリング レートでは現実世界のさまざまな状況に対応できないため、多くの場合、複数のモデルのトレーニングと展開が必要になり、その結果、関連コストが増加します。
この問題に対処するために、HydraSub、Conformer ベースのエンコーダ、および BiTransformer ベースのデコーダで構成される HydraFormer を提案します。
HydraSub には複数のブランチが含まれており、それぞれが個別のサブサンプリング レートを表すため、特定のユースケースに基づいた推論中に任意のブランチを柔軟に選択できます。
HydraFormer はさまざまなサブサンプリング レートを効率的に管理できるため、トレーニングと導入の費用を大幅に削減できます。
AISHELL-1 および LibriSpeech データセットの実験により、HydraFormer が高い認識パフォーマンスを維持しながら、さまざまなサブサンプリング レートと言語に効果的に適応することが明らかになりました。
さらに、HydraFormer は優れた安定性を示し、さまざまな初期化条件下で一貫したパフォーマンスを維持し、事前トレーニング済みの単一サブサンプリング レートの自動音声認識モデルから学習することで堅牢な転送性を示します\脚注{モデル コードとスクリプト: https://github.com/HydraFormer/hydraformer}

要約(オリジナル)

In automatic speech recognition, subsampling is essential for tackling diverse scenarios. However, the inadequacy of a single subsampling rate to address various real-world situations often necessitates training and deploying multiple models, consequently increasing associated costs. To address this issue, we propose HydraFormer, comprising HydraSub, a Conformer-based encoder, and a BiTransformer-based decoder. HydraSub encompasses multiple branches, each representing a distinct subsampling rate, allowing for the flexible selection of any branch during inference based on the specific use case. HydraFormer can efficiently manage different subsampling rates, significantly reducing training and deployment expenses. Experiments on AISHELL-1 and LibriSpeech datasets reveal that HydraFormer effectively adapts to various subsampling rates and languages while maintaining high recognition performance. Additionally, HydraFormer showcases exceptional stability, sustaining consistent performance under various initialization conditions, and exhibits robust transferability by learning from pretrained single subsampling rate automatic speech recognition models\footnote{Model code and scripts: https://github.com/HydraFormer/hydraformer}.

arxiv情報

著者 Yaoxun Xu,Xingchen Song,Zhiyong Wu,Di Wu,Zhendong Peng,Binbin Zhang
発行日 2024-08-08 09:08:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク