Enhanced Feature Learning via Regularisation: Integrating Neural Networks and Kernel Methods

要約

正則化された経験的リスク最小化による教師あり学習における特徴学習と関数推定のための新しい方法を提案します。
私たちのアプローチでは、関数は、データのすべての可能な 1 次元投影に対するソボレフ関数の期待値として考慮されます。
このフレームワークはカーネル リッジ回帰に似ており、カーネルは $\mathbb{E}_w ( k^{(B)}(w^\top x,w^\top x^\prime))$、$k です。
^{(B)}(a,b) := \min(|a|, |b|)1_{ab>0}$ はブラウンカーネルであり、射影 $w$ の分布が学習されます。
これは、勾配降下法によって最初の層の重みを最適化し、2 番目の層の非線形性と重みを明示的に調整する、無限幅の 1 隠れ層ニューラル ネットワークとみなすこともできます。
粒子を使用して期待値を近似する、ブラウン カーネル ニューラル ネットワーク (BKerNN) と呼ばれる推定器の効率的な計算方法を導入します。
最適化の原理は、ブラウン カーネルの正の均一性によるものです。
Rademacher の複雑度を使用して、BKerNN の予想リスクが明示的な高確率 $O( \min((d/n)^{1/2}, n^{-1/6})) の最小リスクに収束することを示します。
$ (対数因数まで)。
数値実験により、私たちの最適化の直感が確認され、BKerNN はカーネル リッジ回帰を上回り、さまざまな設定および実際のデータセットで ReLU アクティベーションを備えた 1 隠れ層ニューラル ネットワークと比較して有利です。

要約(オリジナル)

We propose a new method for feature learning and function estimation in supervised learning via regularised empirical risk minimisation. Our approach considers functions as expectations of Sobolev functions over all possible one-dimensional projections of the data. This framework is similar to kernel ridge regression, where the kernel is $\mathbb{E}_w ( k^{(B)}(w^\top x,w^\top x^\prime))$, with $k^{(B)}(a,b) := \min(|a|, |b|)1_{ab>0}$ the Brownian kernel, and the distribution of the projections $w$ is learnt. This can also be viewed as an infinite-width one-hidden layer neural network, optimising the first layer’s weights through gradient descent and explicitly adjusting the non-linearity and weights of the second layer. We introduce an efficient computation method for the estimator, called Brownian Kernel Neural Network (BKerNN), using particles to approximate the expectation. The optimisation is principled due to the positive homogeneity of the Brownian kernel. Using Rademacher complexity, we show that BKerNN’s expected risk converges to the minimal risk with explicit high-probability rates of $O( \min((d/n)^{1/2}, n^{-1/6}))$ (up to logarithmic factors). Numerical experiments confirm our optimisation intuitions, and BKerNN outperforms kernel ridge regression, and favourably compares to a one-hidden layer neural network with ReLU activations in various settings and real data sets.

arxiv情報

著者 Bertille Follain,Francis Bach
発行日 2024-07-24 13:46:50+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク