要約
近年、音声処理タスクの自己教師あり学習 (SSL) 手法が大幅に進歩しました。
さまざまな音声ベースの SSL モデルが開発されており、音声認識を含むさまざまなダウンストリーム タスクで有望なパフォーマンスを示しています。
ただし、既存の音声ベースの SSL モデルは、計算コストの点で共通のジレンマに直面しており、潜在的な応用や詳細な学術研究が妨げられる可能性があります。
この問題に対処するために、最初に HuBERT の事前トレーニング中にさまざまなモジュールの計算コストを分析し、次に、このペーパーでは Fast-HuBERT と名付けられた効率最適化のスタックを導入します。
提案された Fast-HuBERT は、Librispeech 960h ベンチマークで 8 つの V100 GPU を使用して 1.1 日でパフォーマンスを低下させることなくトレーニングでき、元の実装と比較して 5.2 倍の高速化が実現します。
さらに、Fast-HuBERT でよく研究された 2 つの手法を調査し、以前の研究で報告されたように一貫した改善を実証します。
要約(オリジナル)
Recent years have witnessed significant advancements in self-supervised learning (SSL) methods for speech-processing tasks. Various speech-based SSL models have been developed and present promising performance on a range of downstream tasks including speech recognition. However, existing speech-based SSL models face a common dilemma in terms of computational cost, which might hinder their potential application and in-depth academic research. To address this issue, we first analyze the computational cost of different modules during HuBERT pre-training and then introduce a stack of efficiency optimizations, which is named Fast-HuBERT in this paper. The proposed Fast-HuBERT can be trained in 1.1 days with 8 V100 GPUs on the Librispeech 960h benchmark, without performance degradation, resulting in a 5.2x speedup, compared to the original implementation. Moreover, we explore two well-studied techniques in the Fast-HuBERT and demonstrate consistent improvements as reported in previous work.
arxiv情報
著者 | Guanrou Yang,Ziyang Ma,Zhisheng Zheng,Yakun Song,Zhikang Niu,Xie Chen |
発行日 | 2023-09-25 04:07:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google