Optimal Learning


この論文は、$f$ に関する与えられたデータから未知の関数 $f$ を学習する問題を研究します。
学習問題は、データから $f$ の値を予測する $f$ への近似 $\hat f$ を与えることです。
この学習問題には、(i) $f$ についてどのような追加情報があるか (モデルクラスの仮定として知られています)、(ii) $\hat f$ が $f をどの程度正確に予測するかの精度を測定する方法に応じて、多数の設定があります。
$、(iii) データおよびデータ サイトについてわかっていること、(iv) データ観測がノイズによって汚染されているかどうか。
可能な最適なパフォーマンス (可能な限り最小の回復誤差) の数学的記述は、モデル クラスの仮定が存在する場合に知られています。
この論文では、標準的なモデル クラスの仮定の下で、ペナルティ項を使用して特定の離散的な過剰パラメータ化された最適化問題を解くことによって、ほぼ最適な $\hat f$ を見つけることができることを示しています。
この論文の主な結果は、適切な損失関数を使用した過剰パラメータ化学習により、データが収集される関数 $f$ の最適に近い近似 $\hat f$ が得られることを証明しています。
$f$ のほぼ最適な回復を保証するために、どの程度のオーバーパラメータ化を採用する必要があるか、およびペナルティをどのように調整する必要があるかについて、定量的な限界が与えられます。


This paper studies the problem of learning an unknown function $f$ from given data about $f$. The learning problem is to give an approximation $\hat f$ to $f$ that predicts the values of $f$ away from the data. There are numerous settings for this learning problem depending on (i) what additional information we have about $f$ (known as a model class assumption), (ii) how we measure the accuracy of how well $\hat f$ predicts $f$, (iii) what is known about the data and data sites, (iv) whether the data observations are polluted by noise. A mathematical description of the optimal performance possible (the smallest possible error of recovery) is known in the presence of a model class assumption. Under standard model class assumptions, it is shown in this paper that a near optimal $\hat f$ can be found by solving a certain discrete over-parameterized optimization problem with a penalty term. Here, near optimal means that the error is bounded by a fixed constant times the optimal error. This explains the advantage of over-parameterization which is commonly used in modern machine learning. The main results of this paper prove that over-parameterized learning with an appropriate loss function gives a near optimal approximation $\hat f$ of the function $f$ from which the data is collected. Quantitative bounds are given for how much over-parameterization needs to be employed and how the penalization needs to be scaled in order to guarantee a near optimal recovery of $f$. An extension of these results to the case where the data is polluted by additive deterministic noise is also given.


著者 Peter Binev,Andrea Bonito,Ronald DeVore,Guergana Petrova
発行日 2023-06-26 16:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 41A46, 41A63, 41A65, cs.LG, cs.NA, math.NA, stat.ML パーマリンク