要約
タイトル:実用的なConformer:オンデバイスおよびクラウドASRのためのConformerのサイズ、速度、FLOPSの最適化
要約:
– Conformerモデルは、内部状態を多数保持し、そのほとんどが自己注意レイヤーに関連しています。
– 限られたメモリ帯域幅では、各推論ステップでメモリからこれらを読み取ることは推論を遅くすることができます。
– 本論文では、デバイス上での制限に合わせて十分に小さい最適化されたConformerを設計し、TPU上で高速な推論を行うための様々なアイデアを探求した。
– そのアイデアには、下位のConformerブロックを畳み込みのみのブロックに置き換えること、アーキテクチャーを戦略的に縮小すること、およびRNNAttention-Performerを利用することが含まれます。
– 最適化されたConformerは、カスケードエンコーダーの設定に簡単に組み込むことができ、第2パスのデコーダーが出力を処理し、より多くのリソースが利用可能な場合に精度を改善することができます。
– すべてを合わせると、これらの最適化によりレイテンシが6.8倍に減少し、品質の妥当なトレードオフが得られます。
– カスケードの第2パスを使用すると、認識精度が完全に回復することが示されているため、提案されたエンコーダーは単独で強力なエンコーダーとして使用することができ、デバイスに埋め込むことも、高性能ASRパイプラインの最初の部分として使用することができます。
要約(オリジナル)
Conformer models maintain a large number of internal states, the vast majority of which are associated with self-attention layers. With limited memory bandwidth, reading these from memory at each inference step can slow down inference. In this paper, we design an optimized conformer that is small enough to meet on-device restrictions and has fast inference on TPUs. We explore various ideas to improve the execution speed, including replacing lower conformer blocks with convolution-only blocks, strategically downsizing the architecture, and utilizing an RNNAttention-Performer. Our optimized conformer can be readily incorporated into a cascaded-encoder setting, allowing a second-pass decoder to operate on its output and improve the accuracy whenever more resources are available. Altogether, we find that these optimizations can reduce latency by a factor of 6.8x, and come at a reasonable trade-off in quality. With the cascaded second-pass, we show that the recognition accuracy is completely recoverable. Thus, our proposed encoder can double as a strong standalone encoder in on device, and as the first part of a high-performance ASR pipeline.
arxiv情報
| 著者 | Rami Botros,Anmol Gulati,Tara N. Sainath,Krzysztof Choromanski,Ruoming Pang,Trevor Strohman,Weiran Wang,Jiahui Yu |
| 発行日 | 2023-03-31 23:30:48+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI