ReLU and Addition-based Gated RNN

要約

従来のリカレントゲートの乗算とシグモイド関数を加算とReLU活性化に置き換えます。
このメカニズムは、計算コストを削減しながらシーケンス処理用の長期メモリを維持するように設計されており、それにより、制限されたハードウェア上でより効率的な実行や大規模なモデルの可能性が広がります。
LSTM や GRU などのゲート メカニズムを備えたリカレント ニューラル ネットワーク (RNN) は、長期的な依存関係を取得できるため、シーケンシャル データからの学習に広く成功しています。
従来は、現在の入力と以前の状態履歴に基づく更新にそれぞれ動的重みが乗算され、次の状態を計算するために組み合わされていました。
ただし、乗算は、特に特定のハードウェア アーキテクチャや準同型暗号化などの代替算術システムの場合、計算コストが高くなる可能性があります。
新しいゲート メカニズムにより、標準的な合成シーケンス学習タスクの長期依存関係をキャプチャできると同時に、実行時間が CPU で半分、暗号化下で 3 分の 1 に短縮されるなど、計算コストを大幅に削減できることが実証されました。
さらに、手書きテキスト認識タスクに関する実験結果は、提案されたアーキテクチャをトレーニングして、従来の GRU および LSTM ベースラインと同等の精度を達成できることを示しています。
この論文で紹介されたゲート メカニズムは、暗号化された変数の乗算を回避することで、準同型暗号化の下で動作するプライバシー保護 AI アプリケーションを可能にする可能性があります。
また、(暗号化されていない) 平文アプリケーションでの量子化もサポートでき、加算ベースの定式化により乗算によく必要となる倍精度への拡張を回避できるため、パフォーマンスが大幅に向上する可能性があります。

要約(オリジナル)

We replace the multiplication and sigmoid function of the conventional recurrent gate with addition and ReLU activation. This mechanism is designed to maintain long-term memory for sequence processing but at a reduced computational cost, thereby opening up for more efficient execution or larger models on restricted hardware. Recurrent Neural Networks (RNNs) with gating mechanisms such as LSTM and GRU have been widely successful in learning from sequential data due to their ability to capture long-term dependencies. Conventionally, the update based on current inputs and the previous state history is each multiplied with dynamic weights and combined to compute the next state. However, multiplication can be computationally expensive, especially for certain hardware architectures or alternative arithmetic systems such as homomorphic encryption. It is demonstrated that the novel gating mechanism can capture long-term dependencies for a standard synthetic sequence learning task while significantly reducing computational costs such that execution time is reduced by half on CPU and by one-third under encryption. Experimental results on handwritten text recognition tasks furthermore show that the proposed architecture can be trained to achieve comparable accuracy to conventional GRU and LSTM baselines. The gating mechanism introduced in this paper may enable privacy-preserving AI applications operating under homomorphic encryption by avoiding the multiplication of encrypted variables. It can also support quantization in (unencrypted) plaintext applications, with the potential for substantial performance gains since the addition-based formulation can avoid the expansion to double precision often required for multiplication.

arxiv情報

著者 Rickard Brännvall,Henrik Forsgren,Fredrik Sandin,Marcus Liwicki
発行日 2023-08-10 15:18:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク