Linear-Complexity Self-Supervised Learning for Speech Processing

要約

自己教師あり学習 (SSL) モデルは通常、数十のハイエンド GPU を使用した数週間の事前トレーニングを必要とします。
これらのモデルには通常、マルチヘッド セルフ アテンション (MHSA) コンテキスト エンコーダーが備わっています。
ただし、MHSA は入力長に二次時間と空間を必要とするため、事前トレーニングのコストが高くなります。
MHSA に代わる線形複雑性の代替手段が提案されています。
たとえば、教師ありトレーニングでは、 SummaryMixing モデルが複数の音声処理タスクにわたって MHSA よりも優れたパフォーマンスを示した最初のモデルです。
ただし、これらの安価な代替手段は SSL 向けにはまだ検討されていません。
この論文では、SSL 用の線形複雑性コンテキスト エンコーダを初めて研究します。
MP3S ベンチマークの下流タスクのパフォーマンスが向上または同等であるため、 SummaryMixing は wav2vec 2.0 モデルの事前トレーニング時間とピーク VRAM をそれぞれ 18% と 23% 削減し、155M wav2vec 2.0 モデルの事前トレーニングにつながります。
4 つの Tesla A100 GPU を使用して 1 週間以内に完了しました。
コードは https://github.com/SamsungLabs/summaryMixing で入手できます。

要約(オリジナル)

Self-supervised learning (SSL) models usually require weeks of pre-training with dozens of high-end GPUs. These models typically have a multi-headed self-attention (MHSA) context encoder. However, MHSA takes quadratic time and space in the input length, contributing to the high pre-training cost. Linear-complexity alternatives to MHSA have been proposed. For instance, in supervised training, the SummaryMixing model is the first to outperform MHSA across multiple speech processing tasks. However, these cheaper alternatives have not been explored for SSL yet. This paper studies a linear-complexity context encoder for SSL for the first time. With better or equivalent performance for the downstream tasks of the MP3S benchmark, SummaryMixing reduces the pre-training time and peak VRAM of wav2vec 2.0 model by 18% and by 23%, respectively, leading to the pre-training of a 155M wav2vec 2.0 model finished within one week with 4 Tesla A100 GPUs. Code is available at https://github.com/SamsungLabs/SummaryMixing.

arxiv情報

著者 Shucong Zhang,Titouan Parcollet,Rogier van Dalen,Sourav Bhattacharya
発行日 2024-07-18 10:34:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.CL, eess.AS パーマリンク