要約
この論文では、トレーニングターゲットがどのように取得されるかということから、自己教師あり音声モデルに関する新しい視点を提供します。
ターゲット エクストラクタをオフライン ターゲット エクストラクタ (Off-TE) とオンライン ターゲット エクストラクタ (On-TE) に一般化します。
これに基づいて、我々は、自己教師あり学習のための新しいマルチタスク学習フレームワークである MT4SSL を提案します。これは、Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets の略です。
MT4SSL は、Off-TE として K-means アルゴリズムを使用し、On-TE として勾配なしの教師ネットワークをそれぞれ使用します。
私たちのモデルは、LibriSpeech ベンチマークで以前の SSL メソッドよりもわずかな差でパフォーマンスを上回り、より少ないデータで最もパフォーマンスの高いモデルと同等かそれ以上です。
さらに、Off-TE と On-TE の両方を使用すると、事前トレーニング段階での収束が向上することがわかりました。
私たちの観点からすると、有効性と効率の両方を考慮すると、自己教師あり音声モデルでマルチタスク学習を行うことは有望な傾向であると考えられます。
要約(オリジナル)
In this paper, we provide a new perspective on self-supervised speech models from how the training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE). Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL uses the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with fewer data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think doing multi-task learning on self-supervised speech models from our perspective is a promising trend.
arxiv情報
著者 | Ziyang Ma,Zhisheng Zheng,Changli Tang,Yujin Wang,Xie Chen |
発行日 | 2023-05-31 11:45:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google