Automated Sizing and Training of Efficient Deep Autoencoders using Second Order Algorithms

要約

一般化線形分類器を設計するための複数ステップのトレーニング方法を提案します。
まず、回帰によって初期のマルチクラス線形分類器が見つかります。
その後、不要な入力を取り除くことで検証エラーが最小限に抑えられます。
同時に、Ho-Kashyap ルールと同様の方法により、望ましい出力が改善されます。
次に、出力判別式は、一般化線形分類器のシグモイド出力ユニットの正味関数になるようにスケーリングされます。
次に、隠れ層のサイズとトレーニング エポック数を最適化する、多層パーセプトロン用のバッチ トレーニング アルゴリズムのファミリーを開発します。
次に、剪定と成長アプローチを組み合わせます。
その後、入力ユニットはシグモイド出力ユニットの正味関数になるようにスケーリングされ、MLP への入力として供給されます。
次に、各深層学習ブロックの結果として生じる改善を提案し、それによって深層アーキテクチャの全体的なパフォーマンスが向上します。
ディープオートエンコーダーの学習アルゴリズムに関する原理と定式化について説明します。
私たちは、トレーニングの問題、ネットワークが線形であるという理論的、数学的、実験的根拠、各層の隠れユニットの数の最適化、深層学習モデルの深さの決定など、ディープ オートエンコーダー ネットワークのいくつかの問題を調査します。
現在の研究の直接的な意味は、デスクトップ レベルの計算リソースを使用して高速深層学習モデルを構築できることです。
これは、小さくても強力なアルゴリズムを構築するという設計哲学を促進すると考えています。
各ステップでパフォーマンスの向上が実証されています。
広く利用可能なデータセットを使用すると、最終的なネットワークの 10 倍のテスト誤差は、文献で報告されている他のいくつかの線形、一般化線形分類器、多層パーセプトロン、深層学習器の誤差よりも小さいことが示されています。

要約(オリジナル)

We propose a multi-step training method for designing generalized linear classifiers. First, an initial multi-class linear classifier is found through regression. Then validation error is minimized by pruning of unnecessary inputs. Simultaneously, desired outputs are improved via a method similar to the Ho-Kashyap rule. Next, the output discriminants are scaled to be net functions of sigmoidal output units in a generalized linear classifier. We then develop a family of batch training algorithm for the multi layer perceptron that optimizes its hidden layer size and number of training epochs. Next, we combine pruning with a growing approach. Later, the input units are scaled to be the net function of the sigmoidal output units that are then feed into as input to the MLP. We then propose resulting improvements in each of the deep learning blocks thereby improving the overall performance of the deep architecture. We discuss the principles and formulation regarding learning algorithms for deep autoencoders. We investigate several problems in deep autoencoders networks including training issues, the theoretical, mathematical and experimental justification that the networks are linear, optimizing the number of hidden units in each layer and determining the depth of the deep learning model. A direct implication of the current work is the ability to construct fast deep learning models using desktop level computational resources. This, in our opinion, promotes our design philosophy of building small but powerful algorithms. Performance gains are demonstrated at each step. Using widely available datasets, the final network’s ten fold testing error is shown to be less than that of several other linear, generalized linear classifiers, multi layer perceptron and deep learners reported in the literature.

arxiv情報

著者 Kanishka Tyagi,Chinmay Rane,Michael Manry
発行日 2023-08-11 16:48:31+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク