要約
我々は、確率測度空間上の微分積分のレンズを通してアルゴリズムの弱い一般化誤差と$L_2$一般化誤差を探索するための新しいフレームワークを提案します。
具体的には、KL 正規化された経験的リスク最小化問題を考慮し、サイズ $n$ のサンプルでトレーニングした場合の汎化誤差収束率が $\mathcal{O}(1/n)$ となる一般的な条件を確立します。
平均場領域の 1 隠れ層ニューラル ネットワークによる教師あり学習のコンテキストでは、これらの条件は、損失関数と活性化関数の適切な可積分性と規則性の仮定に反映されます。
要約(オリジナル)
We propose a novel framework for exploring weak and $L_2$ generalization errors of algorithms through the lens of differential calculus on the space of probability measures. Specifically, we consider the KL-regularized empirical risk minimization problem and establish generic conditions under which the generalization error convergence rate, when training on a sample of size $n$, is $\mathcal{O}(1/n)$. In the context of supervised learning with a one-hidden layer neural network in the mean-field regime, these conditions are reflected in suitable integrability and regularity assumptions on the loss and activation functions.
arxiv情報
著者 | Gholamali Aminian,Samuel N. Cohen,Łukasz Szpruch |
発行日 | 2023-06-20 15:49:09+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google