Neural Transducer Training: Reduced Memory Consumption with Sample-wise Computation

要約

ニューラル トランスデューサーは、自動音声認識 (ASR) のエンド ツー エンド モデルです。
このモデルは ASR のストリーミングに適していますが、トレーニング プロセスは依然として困難です。
トレーニング中に、メモリ要件が最先端の GPU の容量をすぐに超えて、バッチ サイズとシーケンスの長さが制限される場合があります。
この作業では、典型的なトランスデューサ トレーニング セットアップの時間と空間の複雑さを分析します。
トランスデューサの損失と勾配をサンプルごとに計算する、メモリ効率の高いトレーニング方法を提案します。
サンプルごとの方法の効率と並列性を高めるための最適化を提示します。
一連の徹底的なベンチマークでは、サンプルごとの方法がメモリ使用量を大幅に削減し、デフォルトのバッチ計算と比較して競争力のある速度で実行されることを示しています。
ハイライトとして、6 GB のメモリのみを使用して、バッチ サイズ 1024、音声の長さ 40 秒のトランスデューサの損失と勾配を計算することができました。

要約(オリジナル)

The neural transducer is an end-to-end model for automatic speech recognition (ASR). While the model is well-suited for streaming ASR, the training process remains challenging. During training, the memory requirements may quickly exceed the capacity of state-of-the-art GPUs, limiting batch size and sequence lengths. In this work, we analyze the time and space complexity of a typical transducer training setup. We propose a memory-efficient training method that computes the transducer loss and gradients sample by sample. We present optimizations to increase the efficiency and parallelism of the sample-wise method. In a set of thorough benchmarks, we show that our sample-wise method significantly reduces memory usage, and performs at competitive speed when compared to the default batched computation. As a highlight, we manage to compute the transducer loss and gradients for a batch size of 1024, and audio length of 40 seconds, using only 6 GB of memory.

arxiv情報

著者 Stefan Braun,Erik McDermott,Roger Hsiao
発行日 2023-03-13 14:18:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク