Fine-tuning Neural-Operator architectures for training and generalization

要約

タイトル:トレーニングと汎化のためのニューラルオペレータアーキテクチャのファインチューニング

要約:

– Neural Operators(NO)およびその派生アーキテクチャの汎化性能について包括的な分析を提供する。
– テスト損失の実証評価、複雑性に基づく汎化バウンドの分析、そして損失ランドスケープの視覚化の定性的評価を通じて、NOの汎化能力を向上させるための修正を調査する。
– Transformerの成功から着想を得て、自己注意の代わりにカーネル積分演算子を導入した${\textit{s}}{\text{NO}}+\varepsilon$を提案する。
– 結果は、データセットと初期化にわたる有意なパフォーマンス向上と、損失ランドスケープの定性的変化と共に示される。
– トレーニングダイナミクスの厳密な分析は、深層学習の最も突出した未解決の問題の1つであるため、本研究はアーキテクチャの複雑性に基づく汎化の分析に焦点を当てている。
– 統計理論に基づき、特にダドリー定理に基づき、NOおよび${\textit{s}}{\text{NO}}+\varepsilon$のRademacher複雑性の上限を導出する。
– 後者のバウンドはパラメーターのノルム制御に依存しないため、深さに関係なく適用可能で、アーキテクチャ内のランダム変数が減衰則に従う場合に深さと汎化性とを接続する。
– 一方、NOのバウンドはパラメーターのノルム制御に依存しており、深さに指数関数的な依存関係がある。
– さらに、実験は、提案されたネットワークがデータ分布の摂動に対して優れた汎化能力を示すことも示している。NOは分布外のシナリオでは性能が低下する。

要約(オリジナル)

This work provides a comprehensive analysis of the generalization properties of Neural Operators (NOs) and their derived architectures. Through empirical evaluation of the test loss, analysis of the complexity-based generalization bounds, and qualitative assessments of the visualization of the loss landscape, we investigate modifications aimed at enhancing the generalization capabilities of NOs. Inspired by the success of Transformers, we propose ${\textit{s}}{\text{NO}}+\varepsilon$, which introduces a kernel integral operator in lieu of self-Attention. Our results reveal significantly improved performance across datasets and initializations, accompanied by qualitative changes in the visualization of the loss landscape. We conjecture that the layout of Transformers enables the optimization algorithm to find better minima, and stochastic depth, improve the generalization performance. As a rigorous analysis of training dynamics is one of the most prominent unsolved problems in deep learning, our exclusive focus is on the analysis of the complexity-based generalization of the architectures. Building on statistical theory, and in particular Dudley theorem, we derive upper bounds on the Rademacher complexity of NOs, and ${\textit{s}}{\text{NO}}+\varepsilon$. For the latter, our bounds do not rely on norm control of parameters. This makes it applicable to networks of any depth, as long as the random variables in the architecture follow a decay law, which connects stochastic depth with generalization, as we have conjectured. In contrast, the bounds in NOs, solely rely on norm control of the parameters, and exhibit an exponential dependence on depth. Furthermore, our experiments also demonstrate that our proposed network exhibits remarkable generalization capabilities when subjected to perturbations in the data distribution. In contrast, NO perform poorly in out-of-distribution scenarios.

arxiv情報

著者 JA Lara Benitez,Takashi Furuya,Florian Faucher,Xavier Tricoche,Maarten V. de Hoop
発行日 2023-04-19 03:06:03+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML パーマリンク