Sim-T: Simplify the Transformer Network by Multiplexing Technique for Speech Recognition

要約

タイトル:音声認識向けTransformerネットワークをMultiplexing技術で簡素化するSim-T

要約:

– Transformerネットワークは性能が優れており、近年音声認識タスクにおいて注目されている。
– しかし、Transformerネットワークは計算量が多く、多くのパラメータを持つため、限られた計算リソースやストレージメモリを持つデバイスへの展開に問題がある。
– Sim-Tという新しい軽量モデルが、Multiplexing技術を利用して提案された。新技術には、モジュールの重み多重化とアテンションスコア多重化という2つの方法が含まれている。また、アテンションスコア多重化を容易にするために、新しいデコーダ構造も提案された。
– Sim-Tの有効性を検証するために、広範な実験が行われた。Aishell-1データセットにおいて、Sim-TがベースラインのTransformerのパラメータ数が48%少ない場合、0.4% CER(Character Error Rate)改善が得られる。一方、Sim-Tが同じ性能を持つ場合は、ベースラインTransformerのパラメータ数を69%削減できる。HKUSTとWSJ eval92データセットにおいて、Sim-Tのパラメータ数がベースラインTransformerの40%少ない場合、CERとWER(Word Error Rate)がそれぞれ0.3%と0.2%改善する。

要約(オリジナル)

In recent years, a great deal of attention has been paid to the Transformer network for speech recognition tasks due to its excellent model performance. However, the Transformer network always involves heavy computation and large number of parameters, causing serious deployment problems in devices with limited computation sources or storage memory. In this paper, a new lightweight model called Sim-T has been proposed to expand the generality of the Transformer model. Under the help of the newly developed multiplexing technique, the Sim-T can efficiently compress the model with negligible sacrifice on its performance. To be more precise, the proposed technique includes two parts, that are, module weight multiplexing and attention score multiplexing. Moreover, a novel decoder structure has been proposed to facilitate the attention score multiplexing. Extensive experiments have been conducted to validate the effectiveness of Sim-T. In Aishell-1 dataset, when the proposed Sim-T is 48% parameter less than the baseline Transformer, 0.4% CER improvement can be obtained. Alternatively, 69% parameter reduction can be achieved if the Sim-T gives the same performance as the baseline Transformer. With regard to the HKUST and WSJ eval92 datasets, CER and WER will be improved by 0.3% and 0.2%, respectively, when parameters in Sim-T are 40% less than the baseline Transformer.

arxiv情報

著者 Guangyong Wei,Zhikui Duan,Shiren Li,Guangguang Yang,Xinmei Yu,Junhua Li
発行日 2023-04-11 05:25:00+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク