Enhancing Neural Training via a Correlated Dynamics Model

要約

ニューラル ネットワークの規模が大きくなるにつれて、そのトレーニングは計算量が多くなり、ダイナミクスも豊富になります。
これらのトレーニングのダイナミクスに対する関心が高まる中、私たちは新しい観察結果を提示します。トレーニング中のパラメーターは時間の経過とともに固有の相関関係を示します。
これを利用して、相関モード分解 (CMD) を導入します。
このアルゴリズムは、パラメーター空間をモードと呼ばれるグループにクラスター化し、エポック全体で同期された動作を表示します。
これにより、CMD は、少数のモードのみを使用して、ResNet や Transformers などの複雑なネットワークのトレーニング ダイナミクスを効率的に表現できるようになります。
さらに、テストセットの一般化が強化されています。
トレーニングと同時に実行するように設計された効率的な CMD バリアントを紹介します。
私たちの実験は、CMD が画像分類のダイナミクスをコンパクトにモデル化する最先端の方法を超えていることを示しています。
フェデレーテッド ラーニングのコンテキストでの予備実験で示されているように、私たちのモデリングはトレーニング効率を向上させ、通信オーバーヘッドを削減できます。

要約(オリジナル)

As neural networks grow in scale, their training becomes both computationally demanding and rich in dynamics. Amidst the flourishing interest in these training dynamics, we present a novel observation: Parameters during training exhibit intrinsic correlations over time. Capitalizing on this, we introduce Correlation Mode Decomposition (CMD). This algorithm clusters the parameter space into groups, termed modes, that display synchronized behavior across epochs. This enables CMD to efficiently represent the training dynamics of complex networks, like ResNets and Transformers, using only a few modes. Moreover, test set generalization is enhanced. We introduce an efficient CMD variant, designed to run concurrently with training. Our experiments indicate that CMD surpasses the state-of-the-art method for compactly modeled dynamics on image classification. Our modeling can improve training efficiency and lower communication overhead, as shown by our preliminary experiments in the context of federated learning.

arxiv情報

著者 Jonathan Brokman,Roy Betser,Rotem Turjeman,Tom Berkov,Ido Cohen,Guy Gilboa
発行日 2023-12-20 18:22:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS パーマリンク