Successive Affine Learning for Deep Neural Networks

要約

この論文では、ディープ ニューラル ネットワーク (DNN) を構築するための逐次アフィン学習 (SAL) モデルを紹介します。
従来、DNN は非凸最適化問題を解くことによって構築されます。
このような問題は非凸性であり、多数の層があるため、数値的に解決することが困難なことがよくあります。
この課題に対処するために、人間の教育システムにヒントを得て、マルチグレード ディープ ラーニング (MGDL) モデルがこの論文の著者によって最近開始されました。
MGDL モデルは複数のグレードで DNN を学習し、それぞれのグレードで比較的少数の層で構成される浅い DNN を構築します。
MGDL モデルでは、依然としていくつかの非凸最適化問題を解決する必要があります。
提案された SAL モデルは、MGDL モデルから変化したものです。
DNN の各層がアフィン マップとそれに続く活性化関数で構成されていることに留意し、重み行列とバイアスの{\後}のみに活性化関数が関係する二次/凸最適化問題を解くことによってアフィン マップを学習することを提案します。
現在のレイヤーのベクトルがトレーニングされています。
関数近似のコンテキストでは、特定の関数に対して、SAL モデルは DNN の形式で適応基底関数を使用して関数の拡張を生成します。
SAL モデルによって生成されたシステムのピタゴラス恒等式とパーセバル恒等式を確立します。
さらに、有限数の等級の後に終了するか、等級数が無限に増加するにつれて最適誤差関数のノルムが厳密に限界まで減少するという意味で、SAL プロセスの収束定理を提供します。
さらに、提案された SAL モデルが従来の深層学習モデルよりも大幅に優れていることを実証する概念実証の数値例を示します。

要約(オリジナル)

This paper introduces a successive affine learning (SAL) model for constructing deep neural networks (DNNs). Traditionally, a DNN is built by solving a non-convex optimization problem. It is often challenging to solve such a problem numerically due to its non-convexity and having a large number of layers. To address this challenge, inspired by the human education system, the multi-grade deep learning (MGDL) model was recently initiated by the author of this paper. The MGDL model learns a DNN in several grades, in each of which one constructs a shallow DNN consisting of a relatively small number of layers. The MGDL model still requires solving several non-convex optimization problems. The proposed SAL model mutates from the MGDL model. Noting that each layer of a DNN consists of an affine map followed by an activation function, we propose to learn the affine map by solving a quadratic/convex optimization problem which involves the activation function only {\it after} the weight matrix and the bias vector for the current layer have been trained. In the context of function approximation, for a given function the SAL model generates an expansion of the function with adaptive basis functions in the form of DNNs. We establish the Pythagorean identity and the Parseval identity for the system generated by the SAL model. Moreover, we provide a convergence theorem of the SAL process in the sense that either it terminates after a finite number of grades or the norms of its optimal error functions strictly decrease to a limit as the grade number increases to infinity. Furthermore, we present numerical examples of proof of concept which demonstrate that the proposed SAL model significantly outperforms the traditional deep learning model.

arxiv情報

著者 Yuesheng Xu
発行日 2023-07-11 15:56:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, math.OC パーマリンク