An Analysis of Linear Complexity Attention Substitutes with BEST-RQ

要約

自己教師あり学習 (SSL) は、音声処理を含むさまざまな分野で効果的であることが証明されています。
ただし、SSL は計算コストとメモリコストが高くなります。
これは、部分的には、多頭自己注意 (MHSA) の 2 次複雑さによるものです。
MHSA の代替案が提案され、音声ドメインで使用されていますが、SSL 設定ではまだ適切に調査されていません。
この研究では、MHSA を線形複雑性を備えた最新の代替手段、つまり HyperMixing、Fastformer、summaryMixing、および Mamba に置き換えた場合の効果を研究します。
これらのメソッドは、速度、消費される VRAM の量、および SSL MP3S ベンチマークのパフォーマンスを確認することで評価されます。
結果は、これらの線形代替案は、MHSA と比較して競争力のあるパフォーマンスを維持しながら、平均して、20 ~ 80 秒の範囲の入力シーケンスで VRAM 消費量を約 20% ~ 60% 削減し、速度を 7% ~ 65% 向上させることを示しています。

要約(オリジナル)

Self-Supervised Learning (SSL) has proven to be effective in various domains, including speech processing. However, SSL is computationally and memory expensive. This is in part due the quadratic complexity of multi-head self-attention (MHSA). Alternatives for MHSA have been proposed and used in the speech domain, but have yet to be investigated properly in an SSL setting. In this work, we study the effects of replacing MHSA with recent state-of-the-art alternatives that have linear complexity, namely, HyperMixing, Fastformer, SummaryMixing, and Mamba. We evaluate these methods by looking at the speed, the amount of VRAM consumed, and the performance on the SSL MP3S benchmark. Results show that these linear alternatives maintain competitive performance compared to MHSA while, on average, decreasing VRAM consumption by around 20% to 60% and increasing speed from 7% to 65% for input sequences ranging from 20 to 80 seconds.

arxiv情報

著者 Ryan Whetten,Titouan Parcollet,Adel Moumen,Marco Dinarelli,Yannick Estève
発行日 2024-09-04 10:27:07+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク