Dynamic Gated Recurrent Neural Network for Compute-efficient Speech Enhancement

要約

このペーパーでは、リソースに制約のあるハードウェア プラットフォーム上で実行される、計算効率の高い音声強調モデルのための新しいダイナミック ゲーテッド リカレント ニューラル ネットワーク (DG-RNN) を紹介します。
これは、RNN 隠れ状態がステップごとにゆっくりと進化する特性を利用し、新しく提案された選択ゲートを RNN モデルに追加することによって、各ステップで選択されたニューロンのセットのみを更新します。
この選択ゲートにより、ネットワーク推論中の従来の RNN の計算コストを削減できます。
DG-RNN の実現として、追加のパラメーターを必要としない Dynamic Gated Recurrent Unit (D-GRU) をさらに提案します。
DNS チャレンジ データセットを使用した、いくつかの最先端の計算効率の高い RNN ベースの音声強調アーキテクチャから得られたテスト結果は、D-GRU ベースのモデルのバリアントが、ベースラインの GRU ベースのモデルと同等の音声明瞭度と品質指標を維持していることを示しています。
GRU コンピューティングが平均 50% 削減されたとしても。

要約(オリジナル)

This paper introduces a new Dynamic Gated Recurrent Neural Network (DG-RNN) for compute-efficient speech enhancement models running on resource-constrained hardware platforms. It leverages the slow evolution characteristic of RNN hidden states over steps, and updates only a selected set of neurons at each step by adding a newly proposed select gate to the RNN model. This select gate allows the computation cost of the conventional RNN to be reduced during network inference. As a realization of the DG-RNN, we further propose the Dynamic Gated Recurrent Unit (D-GRU) which does not require additional parameters. Test results obtained from several state-of-the-art compute-efficient RNN-based speech enhancement architectures using the DNS challenge dataset, show that the D-GRU based model variants maintain similar speech intelligibility and quality metrics comparable to the baseline GRU based models even with an average 50% reduction in GRU computes.

arxiv情報

著者 Longbiao Cheng,Ashutosh Pandey,Buye Xu,Tobi Delbruck,Shih-Chii Liu
発行日 2024-08-22 14:20:11+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.SD, eess.AS パーマリンク