Longer is (Not Necessarily) Stronger: Punctuated Long-Sequence Training for Enhanced Speech Recognition and Translation

要約

この論文では、音声認識および翻訳タスク用のシーケンス間モデルをトレーニングするための新しい方法を紹介します。
小文字または部分的な句読点と大文字化 (PnC) 文のみを含む短いセグメントでモデルをトレーニングする従来のアプローチの代わりに、適切な句読点と大文字化を含む完全な文を含む長い発話でのトレーニングを提案します。
これは、FastConformer アーキテクチャを使用することで実現されており、最大 60 秒間のシーケンスで 10 億のパラメーター モデルを十分な注意を払ってトレーニングできます。
ただし、PnC を使用したトレーニングでは全体的なパフォーマンスが向上しますが、さまざまな評価設定で 40 秒を超えるシーケンスでトレーニングすると精度が頭打ちになることが観察されました。
私たちが提案した方法では、句読点と大文字の区別の精度が大幅に向上し、Earnings-21 および Earnings-22 ベンチマークで相対単語誤り率 (WER) が 25% 改善されたことが示されています。
さらに、より長い音声セグメントでトレーニングすると、音声認識と翻訳のベンチマーク全体で全体的なモデルの精度が向上します。
モデルの重みとトレーニング コードは、NVIDIA NeMo を通じてオープンソース化されています。

要約(オリジナル)

This paper presents a new method for training sequence-to-sequence models for speech recognition and translation tasks. Instead of the traditional approach of training models on short segments containing only lowercase or partial punctuation and capitalization (PnC) sentences, we propose training on longer utterances that include complete sentences with proper punctuation and capitalization. We achieve this by using the FastConformer architecture which allows training 1 Billion parameter models with sequences up to 60 seconds long with full attention. However, while training with PnC enhances the overall performance, we observed that accuracy plateaus when training on sequences longer than 40 seconds across various evaluation settings. Our proposed method significantly improves punctuation and capitalization accuracy, showing a 25% relative word error rate (WER) improvement on the Earnings-21 and Earnings-22 benchmarks. Additionally, training on longer audio segments increases the overall model accuracy across speech recognition and translation benchmarks. The model weights and training code are open-sourced though NVIDIA NeMo.

arxiv情報

著者 Nithin Rao Koluguri,Travis Bartley,Hainan Xu,Oleksii Hrinchuk,Jagadeesh Balam,Boris Ginsburg,Georg Kucsko
発行日 2024-09-09 13:35:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, eess.AS パーマリンク