MT4SSL: Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets

要約

この論文では、自己訓練目標がどのように得られるかから、自己教師あり音声モデルに関する新しい視点を提供します。
ターゲット エクストラクタを Offline Targets Extractor (Off-TE) と Online Targets Extractor (On-TE) に一般化します。
これに基づいて、自己教師あり学習のための新しいマルチタスク学習フレームワークである MT4SSL を提案します。これは、Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets の略です。
MT4SSL は、K-means アルゴリズムを Off-TE として使用する HuBERT と data2vec の 2 つの典型的なモデルを指し、On-TE として勾配のない教師ネットワークをそれぞれ使用します。
私たちのモデルは、LibriSpeech ベンチマークで以前の SSL メソッドよりもはるかに優れたパフォーマンスを発揮し、それほど多くのデータを必要としない最高パフォーマンスのモデルに匹敵するか、それよりも優れています。
さらに、Off-TE と On-TE の両方を使用すると、事前トレーニング段階での収束が向上することがわかりました。
有効性と効率性の両方で、自己教師あり音声モデルでマルチタスク学習を行うことは、私たちの観点から有望な傾向であると考えています。

要約(オリジナル)

In this paper, we provide a new perspective on self-supervised speech models from how the self-training targets are obtained. We generalize the targets extractor into Offline Targets Extractor (Off-TE) and Online Targets Extractor (On-TE). Based on this, we propose a new multi-tasking learning framework for self-supervised learning, MT4SSL, which stands for Boosting Self-Supervised Speech Representation Learning by Integrating Multiple Targets. MT4SSL refers to two typical models, HuBERT and data2vec, which use the K-means algorithm as an Off-TE and a teacher network without gradients as an On-TE, respectively. Our model outperforms previous SSL methods by nontrivial margins on the LibriSpeech benchmark, and is comparable to or even better than the best-performing models with no need for that much data. Furthermore, we find that using both Off-TE and On-TE results in better convergence in the pre-training phase. With both effectiveness and efficiency, we think that doing multi-task learning on self-supervised speech models from our perspective is a promising trend.

arxiv情報

著者 Ziyang Ma,Zhisheng Zhen,Changli Tang,Yujin Wang,Xie Chen
発行日 2023-02-21 04:53:35+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, cs.SD, eess.AS パーマリンク