要約
私たちは、アルゴリズムで生成されたデータセットを使用したトレーニング例の繰り返し数の関数として、トランスフォーマーのパフォーマンスを研究します。
最大公約数、モジュラー乗算、行列の固有値という 3 つの数学の問題に関して、固定数のトレーニング ステップでは、繰り返し使用されるサンプルのより小さなセットでトレーニングされたモデルが、単一使用のサンプルのより大きなセットでトレーニングされたモデルよりも優れたパフォーマンスを発揮することを示します。
また、2 セットのトレーニング (トレーニング セットの残りの通常のサンプリングに沿ってサンプルの小さなランダムなサブセットを繰り返し使用する) により、学習が高速化され、パフォーマンスが向上することも実証します。
これは、反復の利点がデータの多様性の利点を上回る可能性があることを強調しています。
これらのデータセットと問題は、深層学習における一般化と記憶の間のまだよく理解されていない相互作用に光を当てるための制御された設定を提供します。
要約(オリジナル)
We study the performance of transformers as a function of the number of repetitions of training examples with algorithmically generated datasets. On three problems of mathematics: the greatest common divisor, modular multiplication, and matrix eigenvalues, we show that for a fixed number of training steps, models trained on smaller sets of repeated examples outperform models trained on larger sets of single-use examples. We also demonstrate that two-set training – repeated use of a small random subset of examples, along normal sampling on the rest of the training set – provides for faster learning and better performance. This highlights that the benefits of repetition can outweigh those of data diversity. These datasets and problems provide a controlled setting to shed light on the still poorly understood interplay between generalization and memorization in deep learning.
arxiv情報
| 著者 | François Charton,Julia Kempe |
| 発行日 | 2024-10-09 16:28:23+00:00 |
| arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google