Identifying Equivalent Training Dynamics

要約

ディープ ニューラル ネットワーク (DNN) パラメーターがトレーニング中に受ける非線形進化の研究により、明確な動的挙動の領域が明らかになりました。
これらの現象を詳細に理解することで、トレーニングの効率と堅牢性の向上が進む可能性がありますが、DNN モデルが同等のダイナミクスを持つ場合を特定する方法が不足しているため、以前の研究から得られる洞察は限られています。
動的システム理論の概念であるトポロジカル共役は、動的等価性の正確な定義を提供し、このニーズに対処する可能性のあるルートを提供します。
ただし、トポロジカル共役は歴史的に計算が困難でした。
コープマン演算子理論の進歩を活用することで、共役および非共役トレーニング ダイナミクスを特定するためのフレームワークを開発します。
私たちのアプローチを検証するために、オンライン ミラー降下法とオンライン勾配降下法の既知の等価性を正しく識別できることを実証します。
次に、それを次の目的で利用します。浅い完全に接続されたニューラル ネットワークと広い完全に接続されたニューラル ネットワーク間の非共役トレーニング ダイナミクスを識別します。
畳み込みニューラル ネットワークのトレーニング ダイナミクスの初期段階を特徴づけます。
グロッキングを受けるトランスフォーマーとグロッキングを受けないトランスフォーマーの非共役トレーニング ダイナミクスを明らかにします。
さまざまな DNN アーキテクチャにわたる私たちの結果は、私たちのフレームワークの柔軟性を示し、トレーニング ダイナミクスに新たな光を当てるその可能性を強調しています。

要約(オリジナル)

Study of the nonlinear evolution deep neural network (DNN) parameters undergo during training has uncovered regimes of distinct dynamical behavior. While a detailed understanding of these phenomena has the potential to advance improvements in training efficiency and robustness, the lack of methods for identifying when DNN models have equivalent dynamics limits the insight that can be gained from prior work. Topological conjugacy, a notion from dynamical systems theory, provides a precise definition of dynamical equivalence, offering a possible route to address this need. However, topological conjugacies have historically been challenging to compute. By leveraging advances in Koopman operator theory, we develop a framework for identifying conjugate and non-conjugate training dynamics. To validate our approach, we demonstrate that it can correctly identify a known equivalence between online mirror descent and online gradient descent. We then utilize it to: identify non-conjugate training dynamics between shallow and wide fully connected neural networks; characterize the early phase of training dynamics in convolutional neural networks; uncover non-conjugate training dynamics in Transformers that do and do not undergo grokking. Our results, across a range of DNN architectures, illustrate the flexibility of our framework and highlight its potential for shedding new light on training dynamics.

arxiv情報

著者 William T. Redman,Juan M. Bello-Rivas,Maria Fonoberova,Ryan Mohr,Ioannis G. Kevrekidis,Igor Mezić
発行日 2024-06-04 15:20:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.DS パーマリンク