Optimal Learning

要約

この論文は、$f$ に関する与えられたデータから未知の関数 $f$ を学習する問題を研究します。
学習問題は、データから $f$ の値を予測する $f$ への近似 $\hat f$ を与えることです。
この学習問題には、(i) $f$ についてどのような追加情報があるか (モデルクラスの仮定として知られています)、(ii) $\hat f$ が $f をどの程度正確に予測するかの精度を測定する方法に応じて、多数の設定があります。
$、(iii) データおよびデータ サイトについてわかっていること、(iv) データ観測がノイズによって汚染されているかどうか。
可能な最適なパフォーマンス (可能な限り最小の回復誤差) の数学的記述は、モデル クラスの仮定が存在する場合に知られています。
この論文では、標準的なモデル クラスの仮定の下で、ペナルティ項を使用して特定の離散的な過剰パラメータ化された最適化問題を解くことによって、ほぼ最適な $\hat f$ を見つけることができることを示しています。
ここで、ほぼ最適とは、誤差が最適誤差の固定定数倍によって制限されることを意味します。
これは、現代の機械学習で一般的に使用されるオーバーパラメータ化の利点を説明しています。
この論文の主な結果は、適切な損失関数を使用した過剰パラメータ化学習により、データが収集される関数 $f$ の最適に近い近似 $\hat f$ が得られることを証明しています。
$f$ のほぼ最適な回復を保証するために、どの程度のオーバーパラメータ化を採用する必要があるか、およびペナルティをどのように調整する必要があるかについて、定量的な限界が与えられます。
データが付加的な決定論的ノイズによって汚染されている場合へのこれらの結果の拡張も示されています。

要約(オリジナル)

This paper studies the problem of learning an unknown function $f$ from given data about $f$. The learning problem is to give an approximation $\hat f$ to $f$ that predicts the values of $f$ away from the data. There are numerous settings for this learning problem depending on (i) what additional information we have about $f$ (known as a model class assumption), (ii) how we measure the accuracy of how well $\hat f$ predicts $f$, (iii) what is known about the data and data sites, (iv) whether the data observations are polluted by noise. A mathematical description of the optimal performance possible (the smallest possible error of recovery) is known in the presence of a model class assumption. Under standard model class assumptions, it is shown in this paper that a near optimal $\hat f$ can be found by solving a certain discrete over-parameterized optimization problem with a penalty term. Here, near optimal means that the error is bounded by a fixed constant times the optimal error. This explains the advantage of over-parameterization which is commonly used in modern machine learning. The main results of this paper prove that over-parameterized learning with an appropriate loss function gives a near optimal approximation $\hat f$ of the function $f$ from which the data is collected. Quantitative bounds are given for how much over-parameterization needs to be employed and how the penalization needs to be scaled in order to guarantee a near optimal recovery of $f$. An extension of these results to the case where the data is polluted by additive deterministic noise is also given.

arxiv情報

著者 Peter Binev,Andrea Bonito,Ronald DeVore,Guergana Petrova
発行日 2023-06-26 16:07:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 41A46, 41A63, 41A65, cs.LG, cs.NA, math.NA, stat.ML パーマリンク