Generalization Properties of NAS under Activation and Skip Connection Search

要約

Neural Architecture Search (NAS) は、最先端のニューラル アーキテクチャの自動検出を促進してきました。
NAS で達成された進歩にもかかわらず、これまでのところ、NAS の理論上の保証についてはほとんど注目されていません。
この研究では、(深) レイヤ スキップ接続検索とアクティベーション関数検索を可能にする統一フレームワークの下で NAS の一般化特性を研究します。
この目的を達成するために、混合活性化関数、完全結合ニューラル、および残差ニューラルを含む特定の検索空間を使用して、有限幅レジームの下でニューラル タンジェント カーネル (NTK) の最小固有値の下限 (および上限) を導出します。
ネットワーク。
最小固有値を使用して、確率的勾配降下トレーニングにおける NAS の汎化誤差限界を確立します。
重要なのは、トレーニングなしの場合でも、得られた結果によって NAS がどのように最高のパフォーマンスのアーキテクチャを選択できるかを理論的および実験的に示し、理論に基づいたトレーニング不要のアルゴリズムを実現することです。
したがって、私たちの数値検証は、NAS のための計算効率の高い方法の設計に光を当てました。
私たちの分析は、統合フレームワークの下でさまざまなアーキテクチャと活性化関数が結合しているため自明ではなく、深層学習理論における NTK の最小固有値の下限を提供することに独自の関心を持っています。

要約(オリジナル)

Neural Architecture Search (NAS) has fostered the automatic discovery of state-of-the-art neural architectures. Despite the progress achieved with NAS, so far there is little attention to theoretical guarantees on NAS. In this work, we study the generalization properties of NAS under a unifying framework enabling (deep) layer skip connection search and activation function search. To this end, we derive the lower (and upper) bounds of the minimum eigenvalue of the Neural Tangent Kernel (NTK) under the (in)finite-width regime using a certain search space including mixed activation functions, fully connected, and residual neural networks. We use the minimum eigenvalue to establish generalization error bounds of NAS in the stochastic gradient descent training. Importantly, we theoretically and experimentally show how the derived results can guide NAS to select the top-performing architectures, even in the case without training, leading to a train-free algorithm based on our theory. Accordingly, our numerical validation shed light on the design of computationally efficient methods for NAS. Our analysis is non-trivial due to the coupling of various architectures and activation functions under the unifying framework and has its own interest in providing the lower bound of the minimum eigenvalue of NTK in deep learning theory.

arxiv情報

著者 Zhenyu Zhu,Fanghui Liu,Grigorios G Chrysos,Volkan Cevher
発行日 2023-11-01 13:34:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク