要約
ニューロにインスピレーションを得た機械学習は過去数十年にわたって多くの進歩を遂げてきましたが、ニューロンの組み合わせを使用した勾配ベースの学習には依然として基本的な理論的問題が存在します。
コスト関数の鞍点や次善のプラトーなどのこれらの問題は、理論と実践において学習の失敗につながる可能性があります。
さらに、勾配の個別のステップ サイズの選択には問題があります。これは、ステップが大きすぎると不安定になる可能性があり、ステップが小さすぎると学習が遅くなるからです。
この論文では、連続区分線形関数に対する別の離散 MinMax 学習アプローチについて説明します。
アルゴリズムの大域的指数収束は、この論文では連続ケースから離散ケースに拡張された、不等式制約付きの収縮理論を使用して確立されます。深層学習とは対照的に、提案された MinMax ネットワークでは、各線形関数のパラメータ化は線形です。
。
これにより、測定値が 1 つの線形領域から隣接する線形領域に遷移しない限り、線形回帰安定性の証明が可能になります。
離散勾配降下のステップ サイズは、2 つの隣接する線形関数のエッジに直交するラグランジュ限界です。
このラグランジュ ステップ制限は、勾配方向のステップ サイズ制限とは対照的に、制約のないシステム ダイナミクスの収束を低下させないことが示されます。
制約付き区分的線形関数学習の収束率が、個々の局所線形領域の指数関数的収束率と同等であることを示します。
要約(オリジナル)
While much progress has been achieved over the last decades in neuro-inspired machine learning, there are still fundamental theoretical problems in gradient-based learning using combinations of neurons. These problems, such as saddle points and suboptimal plateaus of the cost function, can lead in theory and practice to failures of learning. In addition, the discrete step size selection of the gradient is problematic since too large steps can lead to instability and too small steps slow down the learning. This paper describes an alternative discrete MinMax learning approach for continuous piece-wise linear functions. Global exponential convergence of the algorithm is established using Contraction Theory with Inequality Constraints, which is extended from the continuous to the discrete case in this paper: The parametrization of each linear function piece is, in contrast to deep learning, linear in the proposed MinMax network. This allows a linear regression stability proof as long as measurements do not transit from one linear region to its neighbouring linear region. The step size of the discrete gradient descent is Lagrangian limited orthogonal to the edge of two neighbouring linear functions. It will be shown that this Lagrangian step limitation does not decrease the convergence of the unconstrained system dynamics in contrast to a step size limitation in the direction of the gradient. We show that the convergence rate of a constrained piece-wise linear function learning is equivalent to the exponential convergence rates of the individual local linear regions.
arxiv情報
著者 | Winfried Lohmiller,Philipp Gassert,Jean-Jacques Slotine |
発行日 | 2023-06-15 16:30:33+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google