Neural Language Model Pruning for Automatic Speech Recognition

要約

私たちは、自動音声認識のための Transformer ベースのニューラル ネットワーク言語モデルに適用されるモデル プルーニング手法を研究します。
枝刈りフレームワークの 3 つの側面、つまり基準、方法、スケジューラを調査し、精度と推論速度の観点からそれらの寄与を分析します。
私たちの知る限り、大規模な認識システムに関するこのような詳細な分析は文献で報告されていません。
さらに、モデルを段階的に圧縮し、さまざまなターゲット サイズを持つ複数のモデルを提供するのに適した低ランク近似の変形を提案します。
他の結果の中でも、a) データ駆動型の枝刈りが、いくつかのシナリオにおいて規模駆動型よりも優れていることを示します。
b) インクリメンタル プルーニングは、特に小さいサイズを対象とする場合、ワンショット プルーニングと比較して高い精度を実現します。
c) 低ランク近似は、中程度の圧縮に対するサイズ削減と推論速度の向上との間の最良のトレードオフを示します。

要約(オリジナル)

We study model pruning methods applied to Transformer-based neural network language models for automatic speech recognition. We explore three aspects of the pruning frame work, namely criterion, method and scheduler, analyzing their contribution in terms of accuracy and inference speed. To the best of our knowledge, such in-depth analyses on large-scale recognition systems has not been reported in the literature. In addition, we propose a variant of low-rank approximation suitable for incrementally compressing models, and delivering multiple models with varied target sizes. Among other results, we show that a) data-driven pruning outperforms magnitude-driven in several scenarios; b) incremental pruning achieves higher accuracy compared to one-shot pruning, especially when targeting smaller sizes; and c) low-rank approximation presents the best trade-off between size reduction and inference speed-up for moderate compression.

arxiv情報

著者 Leonardo Emili,Thiago Fraga-Silva,Ernest Pusateri,Markus Nußbaum-Thom,Youssef Oualil
発行日 2023-10-05 10:01:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク