Low latency transformers for speech processing

要約

トランスフォーマーは、最新のニューラル ネットワークで広く使用されているビルディング ブロックです。
ただし、音声データに適用される場合、トランスフォーマーの非因果的動作 (非因果的注意 (AA) と呼ばれます) は、一般にその適用をオフライン タスクに限定します。
このホワイト ペーパーでは、ストリーミング アテンション (SA) を紹介します。SA は固定レイテンシで因果的に動作し、AA よりもトレーニングに必要な計算リソースとメモリ リソースが少なくて済みます。
次に、Latency Streaming Attention (LLSA) を紹介します。これは、レイヤー数に比例して遅延が増加することなく、複数の SA レイヤーを組み合わせる方法です。
自動音声認識 (ASR) および音声感情認識 (SER) タスクに関する AA、SA、および LLSA 間の比較分析が提示されます。
結果は、固定遅延が数秒 (たとえば 1.8 秒) の因果関係 SA ベースのネットワークと、遅延が 300 ミリ秒と短い LLSA ネットワークが、非因果 (AA) ネットワークと同等に機能することを示しています。
SA および LLSA メソッドは、従来の非因果トランスフォーマーの多くの利点を保持していますが、リアルタイム ストリーミング アプリケーションで実行するのに実用的なレイテンシ特性を備えていると結論付けています。

要約(オリジナル)

The transformer is a widely-used building block in modern neural networks. However, when applied to audio data, the transformer’s acausal behaviour, which we term Acausal Attention (AA), has generally limited its application to offline tasks. In this paper we introduce Streaming Attention (SA), which operates causally with fixed latency, and requires lower compute and memory resources than AA to train. Next, we introduce Low Latency Streaming Attention (LLSA), a method which combines multiple SA layers without latency build-up proportional to the layer count. Comparative analysis between AA, SA and LLSA on Automatic Speech Recognition (ASR) and Speech Emotion Recognition (SER) tasks are presented. The results show that causal SA-based networks with fixed latencies of a few seconds (e.g. 1.8 seconds) and LLSA networks with latencies as short as 300 ms can perform comparably with acausal (AA) networks. We conclude that SA and LLSA methods retain many of the benefits of conventional acausal transformers, but with latency characteristics that make them practical to run in real-time streaming applications.

arxiv情報

著者 Jianbo Ma,Siqi Pan,Deepak Chandran,Andrea Fanelli,Richard Cartwright
発行日 2023-02-27 00:44:22+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, cs.SD, eess.AS パーマリンク