A Comparative Study on E-Branchformer vs Conformer in Speech Recognition, Translation, and Understanding Tasks

要約

畳み込み拡張された Transformer の亜種である Conformer は、自動音声認識 (ASR)、音声翻訳 (ST)、音声言語理解 (SLU) などのさまざまなタスクで優れたパフォーマンスを発揮するため、音声処理用の事実上のエンコーダ アーキテクチャとなっています。
最近、E-Branchformer と呼ばれる新しいエンコーダーが LibriSpeech ASR ベンチマークで Conformer を上回り、より一般的な音声アプリケーションに有望になりました。
この研究では、さまざまな種類のエンドツーエンドの配列間モデルを使用した広範な実験を通じて、E-Branchformer と Conformer を比較します。
結果は、E-Branchformer が 15 の ASR、2 ST、および 3 SLU ベンチマークにわたるほぼすべての評価セットで Conformer と同等またはそれ以上のパフォーマンスを達成し、トレーニング中の安定性が高いことを示しています。
私たちは、再現性を高めるためのトレーニング構成と事前トレーニングされたモデルをリリースする予定であり、これは音声コミュニティに利益をもたらすことができます。

要約(オリジナル)

Conformer, a convolution-augmented Transformer variant, has become the de facto encoder architecture for speech processing due to its superior performance in various tasks, including automatic speech recognition (ASR), speech translation (ST) and spoken language understanding (SLU). Recently, a new encoder called E-Branchformer has outperformed Conformer in the LibriSpeech ASR benchmark, making it promising for more general speech applications. This work compares E-Branchformer and Conformer through extensive experiments using different types of end-to-end sequence-to-sequence models. Results demonstrate that E-Branchformer achieves comparable or better performance than Conformer in almost all evaluation sets across 15 ASR, 2 ST, and 3 SLU benchmarks, while being more stable during training. We will release our training configurations and pre-trained models for reproducibility, which can benefit the speech community.

arxiv情報

著者 Yifan Peng,Kwangyoun Kim,Felix Wu,Brian Yan,Siddhant Arora,William Chen,Jiyang Tang,Suwon Shon,Prashant Sridhar,Shinji Watanabe
発行日 2023-05-18 16:00:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク