Optimal Input Gain: All You Need to Supercharge a Feed-Forward Neural Network

要約

タイトル:フィードフォワードニューラルネットワークをスーパーチャージするために必要なものはすべて最適な入力増幅である

要約:
– 入力の線形変換は、同じもののフィードフォワードネットワークのトレーニングパフォーマンスを変えます。
– しかし、ほとんどの線形変換はトレーニングから区別された前処理操作として見られます。
– 等価なネットワークから始めて、線形変換を使用して入力を前処理することが、負の勾配行列を自己相関行列で乗算することに等しいことが示されています。
– 最適な入力ゲイン(OIG)アプローチが提案され、対角化された自己相関行列を見つけるための2次方法が提供されます。
– OIGアプローチは、バックプロパゲーション(BP)と隠れ層重み最適化(HWO)という2つの最初の2ステージトレーニングアルゴリズムを改善するために使用されます。
– 結果は、OIGアプローチが、一般的なLevenberg-Marquardtアプローチと比較して遥かに少ない計算で、最初のアルゴリズムのパフォーマンスを大幅に向上させることを示しています。
– HWOは、入力にホワイトニング変換が適用されたBPに相当することが示されます。
– このように、OIGが改良されたHWOは、より複雑なディープラーニングアーキテクチャーの重要な構成要素となる可能性があります。

要約(オリジナル)

Linear transformation of the inputs alters the training performance of feed-forward networks that are otherwise equivalent. However, most linear transforms are viewed as a pre-processing operation separate from the actual training. Starting from equivalent networks, it is shown that pre-processing inputs using linear transformation are equivalent to multiplying the negative gradient matrix with an autocorrelation matrix per training iteration. Second order method is proposed to find the autocorrelation matrix that maximizes learning in a given iteration. When the autocorrelation matrix is diagonal, the method optimizes input gains. This optimal input gain (OIG) approach is used to improve two first-order two-stage training algorithms, namely back-propagation (BP) and hidden weight optimization (HWO), which alternately update the input weights and solve linear equations for output weights. Results show that the proposed OIG approach greatly enhances the performance of the first-order algorithms, often allowing them to rival the popular Levenberg-Marquardt approach with far less computation. It is shown that HWO is equivalent to BP with Whitening transformation applied to the inputs. HWO effectively combines Whitening transformation with learning. Thus, OIG improved HWO could be a significant building block to more complex deep learning architectures.

arxiv情報

著者 Chinmay Rane,Kanishka Tyagi,Sanjeev Malalur,Yash Shinge,Michael Manry
発行日 2023-03-30 22:20:16+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク