要約
人工ニューラルネットワークの学習において、ミニバッチの利用が一般的になってきた。しかし、ミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論がありません。本研究では、2層ニューラルネットワークの学習におけるミニバッチサイズの役割を理解するための体系的な試みを提示する。疎な教師がいる教師-生徒のシナリオで、異なる複雑さのタスクに焦点を当て、ミニバッチサイズ$m$を変更した場合の効果を定量化する。その結果、生徒の汎化性能は$m$に強く依存し、臨界値$m_c$で鋭い相転移を起こすことがわかった。$m
要約(オリジナル)
The use of mini-batches of data in training artificial neural networks is nowadays very common. Despite its broad usage, theories explaining quantitatively how large or small the optimal mini-batch size should be are missing. This work presents a systematic attempt at understanding the role of the mini-batch size in training two-layer neural networks. Working in the teacher-student scenario, with a sparse teacher, and focusing on tasks of different complexity, we quantify the effects of changing the mini-batch size $m$. We find that often the generalization performances of the student strongly depend on $m$ and may undergo sharp phase transitions at a critical value $m_c$, such that for $m
arxiv情報
著者 | Raffaele Marino,Federico Ricci-Tersenghi |
発行日 | 2023-05-12 06:25:56+00:00 |
arxivサイト | arxiv_id(pdf) |