Data Augmentation in the Underparameterized and Overparameterized Regimes

要約

データ拡張が推定値の分散と限界分布にどのような影響を与えるかを正確に定量化する結果を提供し、いくつかの特定のモデルを詳細に分析します。
この結果は、機械学習の実践で得られたいくつかの観察を裏付けるものですが、予期せぬ発見にもつながります。つまり、データの増強により、経験的予測リスクなどの推定の不確実性が減少するのではなく、増加する可能性があります。
これは正則化機能として機能しますが、特定の高次元の問題では機能せず、経験的リスクの二重降下ピークが移動する可能性があります。
全体として、この分析は、データ拡張に起因するいくつかの特性が真か偽ではなく、むしろ要因の組み合わせ、特にデータ分布、推定量の特性、およびサンプルサイズと数の相互作用に依存していることを示しています。
増強と次元の。
私たちの主な理論ツールは、ランダムに変換された高次元ランダム ベクトルの関数に対する極限定理です。
この証明は、多くの変数の関数のノイズ安定性に関する確率の仕事に基づいています。

要約(オリジナル)

We provide results that exactly quantify how data augmentation affects the variance and limiting distribution of estimates, and analyze several specific models in detail. The results confirm some observations made in machine learning practice, but also lead to unexpected findings: Data augmentation may increase rather than decrease the uncertainty of estimates, such as the empirical prediction risk. It can act as a regularizer, but fails to do so in certain high-dimensional problems, and it may shift the double-descent peak of an empirical risk. Overall, the analysis shows that several properties data augmentation has been attributed with are not either true or false, but rather depend on a combination of factors — notably the data distribution, the properties of the estimator, and the interplay of sample size, number of augmentations, and dimension. Our main theoretical tool is a limit theorem for functions of randomly transformed, high-dimensional random vectors. The proof draws on work in probability on noise stability of functions of many variables.

arxiv情報

著者 Kevin Han Huang,Peter Orbanz,Morgane Austern
発行日 2023-09-28 17:44:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ML, stat.TH パーマリンク