An effective theory of collective deep learning

要約

結合された人工ニューラル ネットワークのシステムにおける集団学習の出現を解明することは、物理学、機械学習、神経科学、社会に対してより広範な意味を持つ取り組みです。
ここでは、各ニューラル ネットワーク ユニットのパラメーターにおける局所学習ダイナミクスと、アンサンブルのパラメーターを均質化する傾向にあるユニット間の拡散結合という 2 つの項間の競合を考慮することにより、いくつかの最近の分散アルゴリズムを凝縮した最小モデルを紹介します。
我々は、線形ネットワークの効果的な理論を介してモデルの粗粒挙動を導き出し、それがクエンチされた無秩序を伴う変形したギンツブルグ・ランダウモデルに類似していることを示しました。
このフレームワークは、パラメータの解における(深さに依存した)無秩序-秩序-無秩序の相転移を予測し、集合的な学習段階の開始を明らかにするとともに、深さによる臨界点の遅延と微視的な学習パスのロバストな形状を明らかにします。

プライバシー制約の下で MNIST データセットでトレーニングされた結合非線形ネットワークの現実的なアンサンブルで理論を検証します。
興味深いことに、実験では、プライベート データのみでトレーニングされた個々のネットワークが、集団学習フェーズが出現したときに、目に見えないデータ クラスに完全に一般化できることが確認されています。
私たちの研究は、集団学習の物理学を解明し、分散型環境における深層学習のメカニズムの解釈可能性に貢献します。

要約(オリジナル)

Unraveling the emergence of collective learning in systems of coupled artificial neural networks is an endeavor with broader implications for physics, machine learning, neuroscience and society. Here we introduce a minimal model that condenses several recent decentralized algorithms by considering a competition between two terms: the local learning dynamics in the parameters of each neural network unit, and a diffusive coupling among units that tends to homogenize the parameters of the ensemble. We derive the coarse-grained behavior of our model via an effective theory for linear networks that we show is analogous to a deformed Ginzburg-Landau model with quenched disorder. This framework predicts (depth-dependent) disorder-order-disorder phase transitions in the parameters’ solutions that reveal the onset of a collective learning phase, along with a depth-induced delay of the critical point and a robust shape of the microscopic learning path. We validate our theory in realistic ensembles of coupled nonlinear networks trained in the MNIST dataset under privacy constraints. Interestingly, experiments confirm that individual networks — trained only with private data — can fully generalize to unseen data classes when the collective learning phase emerges. Our work elucidates the physics of collective learning and contributes to the mechanistic interpretability of deep learning in decentralized settings.

arxiv情報

著者 Lluís Arola-Fernández,Lucas Lacasa
発行日 2023-10-19 14:58:20+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cond-mat.dis-nn, cs.AI, cs.LG, nlin.AO, physics.soc-ph パーマリンク