Bagging Improves Generalization Exponentially

要約

バギングは、機械学習モデルの精度を向上させるための一般的なアンサンブル手法です。
これは、リサンプリングされたデータで繰り返し再トレーニングすることにより、特に不連続なベース学習器の場合、集約モデルの分散が小さくなり、より高い安定性を示すという、確立された理論的根拠にかかっています。
この論文では、バギングに関する新しい視点を提供します。出力レベルではなくパラメータ化で基本学習器を適切に集約することにより、バギングは汎化パフォーマンスを指数関数的に向上させます。これは、分散削減よりもはるかに強力な強みです。
より正確には、ゆっくりと (つまり、多項式に) 減衰する一般化誤差に悩まされる一般的な確率的最適化問題の場合、バギングによってこれらの誤差を指数関数的な減衰に効果的に低減できることを示します。
さらに、このバギングの力は、一般的な経験的リスクの最小化、分布的にロバストな最適化、さまざまな正則化などのソリューション スキームに依存しません。
本質的に遅いレートに悩まされるヘビーテールデータを含むさまざまな例において、バギングが汎化パフォーマンスを大幅に向上させる方法を示します。

要約(オリジナル)

Bagging is a popular ensemble technique to improve the accuracy of machine learning models. It hinges on the well-established rationale that, by repeatedly retraining on resampled data, the aggregated model exhibits lower variance and hence higher stability, especially for discontinuous base learners. In this paper, we provide a new perspective on bagging: By suitably aggregating the base learners at the parametrization instead of the output level, bagging improves generalization performances exponentially, a strength that is significantly more powerful than variance reduction. More precisely, we show that for general stochastic optimization problems that suffer from slowly (i.e., polynomially) decaying generalization errors, bagging can effectively reduce these errors to an exponential decay. Moreover, this power of bagging is agnostic to the solution schemes, including common empirical risk minimization, distributionally robust optimization, and various regularizations. We demonstrate how bagging can substantially improve generalization performances in a range of examples involving heavy-tailed data that suffer from intrinsically slow rates.

arxiv情報

著者 Huaqian Jie,Donghao Ying,Henry Lam,Wotao Yin
発行日 2024-05-23 16:05:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク