要約
この論文では、自己訓練目標がどのように得られるかから、自己教師あり音声モデルに関する新しい視点を提供します。
ターゲット エクストラクタを Offline Targets Extractor (Off-TE) と Online Targets Extractor (On-TE) に一般化します。
これに基づいて、自己教師あり学習のための新しいマルチタスク学習フレームワークである MT4SSL を提案します。これは、Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets の略です。
MT4SSL は、K-means アルゴリズムを Off-TE として使用する HuBERT と data2vec の 2 つの典型的なモデルを指し、On-TE として勾配のない教師ネットワークをそれぞれ使用します。
私たちのモデルは、LibriSpeech ベンチマークで以前の SSL メソッドよりもはるかに優れたパフォーマンスを発揮し、それほど多くのデータを必要としない最高パフォーマンスのモデルに匹敵するか、それよりも優れています。
さらに、Off-TE と On-TE の両方を使用すると、事前トレーニング段階での収束が向上することがわかりました。
有効性と効率性の両方で、自己教師あり音声モデルでマルチタスク学習を行うことは、私たちの観点から有望な傾向であると考えています。
要約(オリジナル)
In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE). Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and data2vec, which use the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with no need for that much data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think that doing multi-task learning on self-supervised speech models from our perspective is a promising trend.
arxiv情報
著者 | Ziyang Ma,Zhisheng Zhen,Changli Tang,Yujin Wang,Xie Chen |
発行日 | 2023-02-21 04:53:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google