How Much Data Are Augmentations Worth? An Investigation into Scaling Laws, Invariance, and Implicit Regularization

要約

データ増強による明らかなパフォーマンス上の利点にもかかわらず、なぜそれほど効果的であるかについてはほとんどわかっていません。
このホワイトペーパーでは、データ拡張が機能するいくつかの重要なメカニズムを解き明かします。
拡張されたデータと追加の実際のデータの間の交換レートを確立すると、分布外のテスト シナリオでは、多様であるがデータ分布と矛盾するサンプルを生成する拡張が、追加のトレーニング データよりもさらに価値があることがわかります。
さらに、不変性を助長するデータ拡張は、特に小規模および中規模のトレーニング セットでは、不変性のみよりも価値があることがわかります。
この観察に続いて、拡張がトレーニング中に追加の確率論を誘発し、損失の状況を効果的に平坦化することを示します。

要約(オリジナル)

Despite the clear performance benefits of data augmentations, little is known about why they are so effective. In this paper, we disentangle several key mechanisms through which data augmentations operate. Establishing an exchange rate between augmented and additional real data, we find that in out-of-distribution testing scenarios, augmentations which yield samples that are diverse, but inconsistent with the data distribution can be even more valuable than additional training data. Moreover, we find that data augmentations which encourage invariances can be more valuable than invariance alone, especially on small and medium sized training sets. Following this observation, we show that augmentations induce additional stochasticity during training, effectively flattening the loss landscape.

arxiv情報

著者 Jonas Geiping,Micah Goldblum,Gowthami Somepalli,Ravid Shwartz-Ziv,Tom Goldstein,Andrew Gordon Wilson
発行日 2022-10-12 17:42:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CV, cs.LG パーマリンク