要約
自己教師あり学習 (SSL) は、さまざまな音声タスクに役立つことが証明されています。
ただし、これらの方法は一般に、データ、メモリ、および計算リソースの点で非常に要求が厳しくなります。
BERT ベースのランダム射影量子化器による音声事前トレーニング (BEST-RQ) は、wav2vec 2.0 などの他の SSL 方式よりも単純でありながら、自動音声認識 (ASR) で優れたパフォーマンスを示した SSL 方式です。
BEST-RQ の優れたパフォーマンスにもかかわらず、事前トレーニングで使用される GPU/TPU 時間などの詳細が元の論文には記載されておらず、公式の使いやすいオープンソース実装もありません。
さらに、BEST-RQ は、ASR と音声翻訳以外の下流タスクについては評価されていません。
この研究では、ランダム投影量子化器の再実装について説明し、4 つのダウンストリーム タスクについて wav2vec 2.0 と比較して予備調査を実行します。
実装の詳細と相違点について説明します。
ランダム射影量子化器が、トレーニング時間を 2 分の 1 以上削減しながら、wav2vec 2.0 と同様のダウンストリーム パフォーマンスを達成できることを示します。
要約(オリジナル)
Self-Supervised Learning (SSL) has proven to be useful in various speech tasks. However, these methods are generally very demanding in terms of data, memory, and computational resources. BERT-based Speech pre-Training with Random-projection Quantizer (BEST-RQ), is an SSL method that has shown great performance on Automatic Speech Recognition (ASR) while being simpler than other SSL methods, such as wav2vec 2.0. Despite BEST-RQ’s great performance, details are lacking in the original paper, such as the amount of GPU/TPU hours used in pre-training, and there is no official easy-to-use open-source implementation. Furthermore, BEST-RQ has not been evaluated on other downstream tasks aside from ASR and speech translation. In this work, we describe a re-implementation of a Random-projection quantizer and perform a preliminary study with a comparison to wav2vec 2.0 on four downstream tasks. We discuss the details and differences of our implementation. We show that a random projection quantizer can achieve similar downstream performance as wav2vec 2.0 while decreasing training time by over a factor of two.
arxiv情報
著者 | Ryan Whetten,Titouan Parcollet,Marco Dinarelli,Yannick Estève |
発行日 | 2024-05-07 13:11:37+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google