要約
ディープニューラルネットワークの勾配最適化の研究のために設計された、バッチ正規化、重み正規化、スキップ接続を含むユビキタスアーキテクチャの選択を包含する一般的な理論的枠組みを紹介する。本フレームワークでは、多層損失ランドスケープの曲率と規則性の特性を構成層の観点から決定することで、これらの特性をグローバル化する際に正規化層とスキップ接続が果たす役割を明らかにする。次に、このフレームワークの有用性を2つの点で実証する。第一に、クロスエントロピー・コストのように、無限大にしか最適値が存在しない場合でも、勾配降下法を用いて大域的最適値までディープ・ニューラル・ネットワークを学習できることを、我々が知る限り唯一証明した。第二に、ResNetsを用いてMNIST、CIFAR10、CIFAR100、ImageNetで予測検証を行い、スキップ接続が学習を加速させる新しい因果メカニズムを特定する。
要約(オリジナル)
We introduce a general theoretical framework, designed for the study of gradient optimisation of deep neural networks, that encompasses ubiquitous architecture choices including batch normalisation, weight normalisation and skip connections. Our framework determines the curvature and regularity properties of multilayer loss landscapes in terms of their constituent layers, thereby elucidating the roles played by normalisation layers and skip connections in globalising these properties. We then demonstrate the utility of this framework in two respects. First, we give the only proof of which we are aware that a class of deep neural networks can be trained using gradient descent to global optima even when such optima only exist at infinity, as is the case for the cross-entropy cost. Second, we identify a novel causal mechanism by which skip connections accelerate training, which we verify predictively with ResNets on MNIST, CIFAR10, CIFAR100 and ImageNet.
arxiv情報
著者 | Lachlan Ewen MacDonald,Jack Valmadre,Hemanth Saratchandran,Simon Lucey |
発行日 | 2023-12-04 15:37:47+00:00 |
arxivサイト | arxiv_id(pdf) |