Towards Size-Independent Generalization Bounds for Deep Operator Nets

要約

最近、機械学習手法は大幅な進歩を遂げ、物理システムを分析するための有用なツールとなりました。
このテーマで特に活発な分野は、微分方程式を数値的に解くためのニューラル ネットの使用に焦点を当てた「物理情報に基づく機械学習」です。
この研究では、DeepONets のトレーニング中にサンプル外誤差を測定する理論を前進させることを目指しています。これは、P.D.E システムをワンショットで解決する最も汎用性の高い方法の 1 つです。
まず、DeepONets のクラスについて、関与するネットの幅に明示的に対応しない Rademacher の複雑さの限界を証明します。
次に、これを使用して、これらの DeepONet クラスに対して、ネットのサイズに明示的に依存しない一般化誤差限界を取得できるように、フーバー損失を選択する方法を示します。
このようにして導出した DeepONets の有効容量の尺度は、実験における汎化誤差の挙動と相関していることも示されています。

要約(オリジナル)

In recent times machine learning methods have made significant advances in becoming a useful tool for analyzing physical systems. A particularly active area in this theme has been ‘physics-informed machine learning’ which focuses on using neural nets for numerically solving differential equations. In this work, we aim to advance the theory of measuring out-of-sample error while training DeepONets – which is among the most versatile ways to solve P.D.E systems in one-shot. Firstly, for a class of DeepONets, we prove a bound on their Rademacher complexity which does not explicitly scale with the width of the nets involved. Secondly, we use this to show how the Huber loss can be chosen so that for these DeepONet classes generalization error bounds can be obtained that have no explicit dependence on the size of the nets. The effective capacity measure for DeepONets that we thus derive is also shown to correlate with the behavior of generalization error in experiments.

arxiv情報

著者 Pulkit Gopalani,Sayar Karmakar,Dibyakanti Kumar,Anirbit Mukherjee
発行日 2024-12-04 17:37:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, cs.NA, math.NA, stat.ML パーマリンク