要約
音声の自己監視型事前トレーニングは、下流のタスクのパフォーマンスを効果的に向上させることができます。
ただし、HuBERT や BEST-RQ など、これまでの音声の自己教師あり学習 (SSL) 手法は、双方向コンテキストを備えた非因果的エンコーダーの利用に焦点を当てており、ダウンストリーム ストリーミング モデルに対する十分なサポートが不足していました。
この問題に対処するために、ランダム投影量子化器 (NEST-RQ) を使用した次のトークン予測ベースの音声事前トレーニング方法を導入します。
NEST-RQ は、左側のコンテキストのみを持つ因果エンコーダーを採用し、トレーニング タスクとしてネクスト トークン予測 (NTP) を使用します。
大規模データセットでは、BEST-RQ と比較して、提案された NEST-RQ は非ストリーミング自動音声認識 (ASR) で同等のパフォーマンスを達成し、ストリーミング ASR でより優れたパフォーマンスを達成します。
また、ストリーミング ASR の将来のコンテキスト サイズ、SSL のコードブック品質、エンコーダーのモデル サイズに関する分析実験も行っています。
要約すると、この論文は音声 SSL における NTP の実現可能性を実証し、音声 SSL 研究に対する経験的証拠と洞察を提供します。
要約(オリジナル)
Speech self-supervised pre-training can effectively improve the performance of downstream tasks. However, previous self-supervised learning (SSL) methods for speech, such as HuBERT and BEST-RQ, focus on utilizing non-causal encoders with bidirectional context, and lack sufficient support for downstream streaming models. To address this issue, we introduce the next token prediction based speech pre-training method with random-projection quantizer (NEST-RQ). NEST-RQ employs causal encoders with only left context and uses next token prediction (NTP) as the training task. On the large-scale dataset, compared to BEST-RQ, the proposed NEST-RQ achieves comparable performance on non-streaming automatic speech recognition (ASR) and better performance on streaming ASR. We also conduct analytical experiments in terms of the future context size of streaming ASR, the codebook quality of SSL and the model size of the encoder. In summary, the paper demonstrates the feasibility of the NTP in speech SSL and provides empirical evidence and insights for speech SSL research.
arxiv情報
著者 | Minglun Han,Ye Bai,Chen Shen,Youjia Huang,Mingkun Huang,Zehua Lin,Linhao Dong,Lu Lu,Yuxuan Wang |
発行日 | 2024-09-13 09:48:11+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google