Phase transitions in the mini-batch size for sparse and dense neural networks

要約

人工ニューラルネットワークの学習において、ミニバッチの利用が一般的になってきた。しかし、ミニバッチサイズがどの程度大きいか小さいかを定量的に説明する理論がありません。本研究では、2層ニューラルネットワークの学習におけるミニバッチサイズの役割を理解するための体系的な試みを提示する。疎な教師がいる教師-生徒のシナリオで、異なる複雑さのタスクに焦点を当て、ミニバッチサイズ$m$を変更した場合の効果を定量化する。その結果、生徒の汎化性能は$m$に強く依存し、臨界値$m_c$で鋭い相転移を起こすことがわかった。$mm_c$では生徒は完全に学習するか教師の汎化を非常によくする。相転移は、統計力学で最初に発見され、その後多くの科学分野で観察されるようになった集団現象によって引き起こされます。ミニバッチサイズを変化させて相転移を見つけることは、これまで見過ごされてきたハイパーパラメータの役割に関するいくつかの重要な問題を提起している。

要約(オリジナル)

The use of mini-batches of data in training artificial neural networks is nowadays very common. Despite its broad usage, theories explaining quantitatively how large or small the optimal mini-batch size should be are missing. This work presents a systematic attempt at understanding the role of the mini-batch size in training two-layer neural networks. Working in the teacher-student scenario, with a sparse teacher, and focusing on tasks of different complexity, we quantify the effects of changing the mini-batch size $m$. We find that often the generalization performances of the student strongly depend on $m$ and may undergo sharp phase transitions at a critical value $m_c$, such that for $mm_c$ the student learns perfectly or generalizes very well the teacher. Phase transitions are induced by collective phenomena firstly discovered in statistical mechanics and later observed in many fields of science. Finding a phase transition varying the mini-batch size raises several important questions on the role of a hyperparameter which have been somehow overlooked until now.

arxiv情報

著者 Raffaele Marino,Federico Ricci-Tersenghi
発行日 2023-05-12 06:25:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cond-mat.dis-nn, cond-mat.stat-mech, cs.AI, cs.LG パーマリンク