A Model for Every User and Budget: Label-Free and Personalized Mixed-Precision Quantization

要約

自動音声認識 (ASR) の最近の進歩により、大規模な AI モデルが生成されましたが、モバイル デバイスへの展開は非現実的になってきました。
モデルの量子化は、圧縮された汎用モデルを生成するのに効果的ですが、そのようなモデルは、対象となる制限されたサブドメインにのみ展開できます。
ターゲット ドメインからのラベルのないサンプルの少数のセットのみに依存しながら、量子化中に ASR モデルをパーソナライズできることを示します。
この目的を達成するために、微調整なしであらゆるメモリ要件の下でさまざまなユーザーに合わせた量子化スキームを生成する混合精度量子化手法である myQASR を提案します。
myQASR は、完全精度のアクティベーション値を分析することにより、ネットワーク層の量子化感度を自動的に評価します。
その後、事前に決定されたメモリ バジェットに対して、パーソナライズされた混合精度の量子化スキームを生成できます。
大規模な ASR モデルの結果は、myQASR が特定の性別、言語、話者のパフォーマンスをどのように向上させるかを示しています。

要約(オリジナル)

Recent advancement in Automatic Speech Recognition (ASR) has produced large AI models, which become impractical for deployment in mobile devices. Model quantization is effective to produce compressed general-purpose models, however such models may only be deployed to a restricted sub-domain of interest. We show that ASR models can be personalized during quantization while relying on just a small set of unlabelled samples from the target domain. To this end, we propose myQASR, a mixed-precision quantization method that generates tailored quantization schemes for diverse users under any memory requirement with no fine-tuning. myQASR automatically evaluates the quantization sensitivity of network layers by analysing the full-precision activation values. We are then able to generate a personalised mixed-precision quantization scheme for any pre-determined memory budget. Results for large-scale ASR models show how myQASR improves performance for specific genders, languages, and speakers.

arxiv情報

著者 Edward Fish,Umberto Michieli,Mete Ozay
発行日 2023-07-24 10:03:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク