要約
タイトル:Beyond Universal Transformer:自動音声認識のTransformerによるアダプターによるブロック再利用
要約:
– Transformerベースのモデルは、最近エンドツーエンド自動音声認識(ASR)の応用において大きな成果を挙げています。
– Transformerベースのモデルを使用することで、スマートデバイスでE2E ASRシステムを展開することが可能になりました。
– このモデルは、まだ多くのモデルパラメータが必要という欠点があります。
– エッジデバイスでのASRアプリケーションのためのユニバーサルTransformerモデルの欠点を克服するために、小型フットプリントASRシステムのためのブロック再利用の解決策を提案します。
– ブロック再利用のための独自の戦略で、パラメータの効果を高めるためにアダプターモジュール(ADM)を提案します。
– 提案手法の実験を、公開されているAISHELL-1コーパスで行い、ADMの有無にかかわらず、7.6M/8.3MのパラメータでCERが9.3%/6.63%の精度を実現することができます。
– さらに、一般的なブロック再利用手法のADMの効果を示すために、より深い分析を行います。
要約(オリジナル)
Transformer-based models have recently made significant achievements in the application of end-to-end (E2E) automatic speech recognition (ASR). It is possible to deploy the E2E ASR system on smart devices with the help of Transformer-based models. While these models still have the disadvantage of requiring a large number of model parameters. To overcome the drawback of universal Transformer models for the application of ASR on edge devices, we propose a solution that can reuse the block in Transformer models for the occasion of the small footprint ASR system, which meets the objective of accommodating resource limitations without compromising recognition accuracy. Specifically, we design a novel block-reusing strategy for speech Transformer (BRST) to enhance the effectiveness of parameters and propose an adapter module (ADM) that can produce a compact and adaptable model with only a few additional trainable parameters accompanying each reusing block. We conducted an experiment with the proposed method on the public AISHELL-1 corpus, and the results show that the proposed approach achieves the character error rate (CER) of 9.3%/6.63% with only 7.6M/8.3M parameters without and with the ADM, respectively. In addition, we also make a deeper analysis to show the effect of ADM in the general block-reusing method.
arxiv情報
著者 | Haoyu Tang,Zhaoyi Liu,Chang Zeng,Xinfeng Li |
発行日 | 2023-04-05 08:36:34+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, OpenAI