Random Smoothing Regularization in Kernel Gradient Descent Learning

要約

タイトル:カーネル勾配降下学習におけるランダムスムージング正則化

要約:
– オーバーフィッティングを防ぐために、ノイズをデータに導入するランダムスムージングデータ拡張は、一般化された特徴を学習するようにモデルを促進する独自の正則化方法である。
– しかし、ランダムスムージングの正則化能力に関する体系的な研究が不足していたため、本論文では、古典的なソボレフ空間に属する幅広い真の関数を適応的かつ効果的に学習できるランダムスムージング正則化のフレームワークを提案して、このギャップを埋めることを目的とする。
– 特に、2つの基礎となる関数空間を調査し、ランダムスムージング正則化を新しい畳み込みベースのスムージングカーネルとして使用することで、早期停止または重み減衰を用いたカーネル勾配降下アルゴリズムでこれらの場合に最適な収束率を達成できる。
– 注目すべきは、私たちの推定器が、基礎となるデータの構造的な仮定に適応して、次元の呪いを回避できることである。これは、ガウス、ラプラス、一般的な多項式ノイズなど、さまざまな注入ノイズ分布の選択によって達成され、基礎となるデータの上記の構造的な仮定に広く適応することができる。
– 収束率は、実際のデータ次元よりもかなり小さい可能性がある有効次元に依存する。私たちは、理論的な結果を検証するために、模擬データで数値実験を実施した。

要約(オリジナル)

Random smoothing data augmentation is a unique form of regularization that can prevent overfitting by introducing noise to the input data, encouraging the model to learn more generalized features. Despite its success in various applications, there has been a lack of systematic study on the regularization ability of random smoothing. In this paper, we aim to bridge this gap by presenting a framework for random smoothing regularization that can adaptively and effectively learn a wide range of ground truth functions belonging to the classical Sobolev spaces. Specifically, we investigate two underlying function spaces: the Sobolev space of low intrinsic dimension, which includes the Sobolev space in $D$-dimensional Euclidean space or low-dimensional sub-manifolds as special cases, and the mixed smooth Sobolev space with a tensor structure. By using random smoothing regularization as novel convolution-based smoothing kernels, we can attain optimal convergence rates in these cases using a kernel gradient descent algorithm, either with early stopping or weight decay. It is noteworthy that our estimator can adapt to the structural assumptions of the underlying data and avoid the curse of dimensionality. This is achieved through various choices of injected noise distributions such as Gaussian, Laplace, or general polynomial noises, allowing for broad adaptation to the aforementioned structural assumptions of the underlying data. The convergence rate depends only on the effective dimension, which may be significantly smaller than the actual data dimension. We conduct numerical experiments on simulated data to validate our theoretical results.

arxiv情報

著者 Liang Ding,Tianyang Hu,Jiahang Jiang,Donghao Li,Wenjia Wang,Yuan Yao
発行日 2023-05-05 13:37:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ML パーマリンク