TriNet: stabilizing self-supervised learning from complete or slow collapse on ASR

要約

自己教師あり学習 (SSL) モデルは、急激な情報崩壊やゆっくりとした次元崩壊という課題に直面しています。
崩壊を防ぎ、事前トレーニングを安定させるための新しいトリプルブランチアーキテクチャを導入するTriNetを提案します。
TriNet は、SSL の潜在的な埋め込み空間を学習し、凍結された教師によって生成された疑似ターゲット ベクトルを予測するために、それをより高いレベルの空間に組み込みます。
実験結果は、提案された方法が事前トレーニングを著しく安定化および加速し、ダウンストリーム ベンチマーク ASR タスクの最先端 (SOTA) Data2vec と比較して 6.06% の相対単語誤り率削減 (WERR) を達成することを示しています。
https://github.com/tencent-ailab/ でコードをリリースします。

要約(オリジナル)

Self-supervised learning (SSL) models confront challenges of abrupt informational collapse or slow dimensional collapse. We propose TriNet, which introduces a novel triple-branch architecture for preventing collapse and stabilizing the pre-training. TriNet learns the SSL latent embedding space and incorporates it to a higher level space for predicting pseudo target vectors generated by a frozen teacher. Our experimental results show that the proposed method notably stabilizes and accelerates pre-training and achieves a relative word error rate reduction (WERR) of 6.06% compared to the state-of-the-art (SOTA) Data2vec for a downstream benchmark ASR task. We will release our code at https://github.com/tencent-ailab/.

arxiv情報

著者 Lixin Cao,Jun Wang,Ben Yang,Dan Su,Dong Yu
発行日 2023-03-14 12:23:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, eess.AS パーマリンク