A low latency attention module for streaming self-supervised speech representation learning

要約

トランスフォーマーは深層学習の基本的な構成要素であり、アテンション メカニズムはトランスフォーマーのコア コンポーネントです。
自己教師あり音声表現学習 (SSRL) は、トランスフォーマー アーキテクチャの一般的なユースケースを表します。
変圧器の非因果的な動作により、SSRL での変圧器の使用は主に非因果的なアプリケーションに焦点を当ててきました。
ただし、音声処理などのいくつかのメディア処理の問題には、リアルタイムの解決策が必要です。
このペーパーでは、低いコンピューティング要件とメモリ要件で SSRL アーキテクチャのトレーニングを可能にし、同時に低レイテンシと固定レイテンシでのリアルタイム推論を可能にするアテンション モジュールの実装を紹介します。
この論文で提案するアテンション モジュールには、ストリーミング アテンション (SA) と低遅延ストリーミング アテンション (LLSA) の 2 つのコンポーネントが含まれています。
SA は効率的なストリーミング SSRL 実装に対する当社の提案を表しており、一方 LLSA は、マスクされた非因果的注意 (MAA) などの他のストリーミング アテンション アーキテクチャの遅延蓄積問題を解決し、複数のレイヤーが存在する場合でも 1 つのレイヤーと同等の遅延を保証します。
積み重ねられた。
ダウンストリーム タスクとして自動音声認識を使用してストリーミング SSRL をトレーニングすることにより、バニラ アテンション (ここでは非因果的注意 (AA) と呼びます)、SA、および LLSA 間の比較分析を示します。
librispeech-clean-100 でトレーニングし、librispeech-test-clean でテストした場合、低遅延アテンション モジュールの単語誤り率 (WER) は 5.84% であり、MAA (WER = 13.82%) に比べて大幅な改善を示しています。
また、私たちの実装により、推論レイテンシが 1.92 秒から 0.16 秒に短縮されました。
提案された低遅延モジュールは、従来の非因果変換器の多くの利点を維持しながら、リアルタイム ストリーミング アプリケーションに適用できる遅延特性も実現します。

要約(オリジナル)

The transformer is a fundamental building block in deep learning, and the attention mechanism is the transformer’s core component. Self-supervised speech representation learning (SSRL) represents a popular use-case for the transformer architecture. Due to transformers’ acausal behavior, the use of transformers for SSRL has been predominantly focused on acausal applications. However, several media processing problems, such as speech processing, require real-time solutions. In this paper, we present an implementation of the attention module that enables training of SSRL architectures with low compute and memory requirements, while allowing real-time inference with low and fixed latency. The attention module proposed in this paper includes two components, streaming attention (SA) and low-latency streaming attention (LLSA). The SA represents our proposal for an efficient streaming SSRL implementation, while the LLSA solves the latency build-up problem of other streaming attention architectures, such as the masked acausal attention (MAA), guaranteeing a latency equal to one layer even when multiple layers are stacked. We present a comparative analysis between the vanilla attention, which we will refer here as acausal attention (AA), the SA, and the LLSA, by training a streaming SSRL with automatic speech recognition as downstream task. When training on librispeech-clean-100 and testing on librispeech-test-clean, our low-latency attention module has a word error rate (WER) of 5.84%, which represents a significant improvement over the MAA (WER = 13.82%). Our implementation also reduces the inference latency from 1.92 to 0.16 seconds. The proposed low-latency module preserves many of the benefits of conventional acausal transformers, but also enables latency characteristics that make it applicable to real-time streaming applications.

arxiv情報

著者 Jianbo Ma,Siqi Pan,Deepak Chandran,Andrea Fanelli,Richard Cartwright
発行日 2024-03-18 01:09:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク