Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition

要約

エッジまたはモノのインターネット (IoT) デバイスでの機械学習モデルの実装が増加しているため、リソースに制約のある IoT デバイスに高度なモデルを展開することは依然として困難です。
現在主流のニューラル アーキテクチャであるトランスフォーマー モデルは、幅広い分野で大きな成功を収めていますが、その複雑さにより、計算能力とストレージ サイズが限られた IoT デバイスへの展開が妨げられています。
多くのモデル圧縮アプローチが検討されていますが、多くの場合、悪名高いパフォーマンスの低下に悩まされます。
この問題に対処するために、軽量の Transformer モデルのパフォーマンスを向上させる新しい方法、つまり Transformer Re-parameterization を導入します。
これは、トレーニング段階の高ランク因数分解 (HRF) プロセスと推論段階の高ランク因数分解 (deHRF) プロセスの 2 つのプロセスで構成されます。
前者のプロセスでは、軽量の Transformer のフィードフォワード ネットワーク (FFN) の前に追加の線形層を挿入します。
挿入された HRF 層によりモデルの学習能力が強化されると考えられます。
後のプロセスでは、補助 HRF 層が後続の FFN 層とマージされて 1 つの線形層になり、軽量モデルの元の構造が復元されます。
提案された方法の有効性を調べるために、IEMOCAP、M3ED、および DAIC-WOZ データセットでの音声感情認識のアプリケーションにおいて、広く使用されている 3 つの Transformer バリアント、つまり ConvTransformer、Conformer、および SpeechFormer ネットワークで評価します。
実験結果は、私たちが提案した方法が軽量トランスフォーマーのパフォーマンスを一貫して向上させ、大型モデルと同等になることを示しています。
提案された再パラメータ化アプローチにより、リソースに制約のある IoT デバイスに高度な Transformer モデルを展開できるようになります。

要約(オリジナル)

With the increasing implementation of machine learning models on edge or Internet-of-Things (IoT) devices, deploying advanced models on resource-constrained IoT devices remains challenging. Transformer models, a currently dominant neural architecture, have achieved great success in broad domains but their complexity hinders its deployment on IoT devices with limited computation capability and storage size. Although many model compression approaches have been explored, they often suffer from notorious performance degradation. To address this issue, we introduce a new method, namely Transformer Re-parameterization, to boost the performance of lightweight Transformer models. It consists of two processes: the High-Rank Factorization (HRF) process in the training stage and the deHigh-Rank Factorization (deHRF) process in the inference stage. In the former process, we insert an additional linear layer before the Feed-Forward Network (FFN) of the lightweight Transformer. It is supposed that the inserted HRF layers can enhance the model learning capability. In the later process, the auxiliary HRF layer will be merged together with the following FFN layer into one linear layer and thus recover the original structure of the lightweight model. To examine the effectiveness of the proposed method, we evaluate it on three widely used Transformer variants, i.e., ConvTransformer, Conformer, and SpeechFormer networks, in the application of speech emotion recognition on the IEMOCAP, M3ED and DAIC-WOZ datasets. Experimental results show that our proposed method consistently improves the performance of lightweight Transformers, even making them comparable to large models. The proposed re-parameterization approach enables advanced Transformer models to be deployed on resource-constrained IoT devices.

arxiv情報

著者 Zixing Zhang,Zhongren Dong,Weixiang Xu,Jing Han
発行日 2024-11-14 10:36:19+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.SD, eess.AS パーマリンク