Latent State Models of Training Dynamics

要約

モデルのトレーニングに対するランダム性の影響はほとんど理解されていません。
一部のトレーニング実行が他のトレーニング実行より優れたり、より速く収束したりするなど、データの順序と初期化の違いは実際にモデルにどのように現れるのでしょうか?
さらに、結果として得られるトレーニングダイナミクスと、さまざまな軌道を特徴づける相転移をどのように解釈できるでしょうか?
ニューラル ネットワークのトレーニングのダイナミクスと結果に対するランダム性の影響を理解するために、異なるランダム シードを使用してモデルを複数回トレーニングし、トレーニング全体を通じてニューラル ネットワークの $L_2$ ノルム、平均、分散などのさまざまなメトリクスを計算します。
重み。
次に、結果として得られるメトリクスのシーケンスに対して隠れマルコフ モデル (HMM) を当てはめます。
HMM はトレーニングを潜在状態間の遷移の確率的プロセスとして表し、トレーニング中の重要な変化の直感的な概要を提供します。
私たちの手法を使用して、グロッキング タスク、画像分類、およびマスクされた言語モデリングに関するトレーニング ダイナミクスの低次元の離散表現を生成します。
HMM 表現を使用して相転移を研究し、収束を遅らせる潜在的な「迂回」状態を特定します。

要約(オリジナル)

The impact of randomness on model training is poorly understood. How do differences in data order and initialization actually manifest in the model, such that some training runs outperform others or converge faster? Furthermore, how can we interpret the resulting training dynamics and the phase transitions that characterize different trajectories? To understand the effect of randomness on the dynamics and outcomes of neural network training, we train models multiple times with different random seeds and compute a variety of metrics throughout training, such as the $L_2$ norm, mean, and variance of the neural network’s weights. We then fit a hidden Markov model (HMM) over the resulting sequences of metrics. The HMM represents training as a stochastic process of transitions between latent states, providing an intuitive overview of significant changes during training. Using our method, we produce a low-dimensional, discrete representation of training dynamics on grokking tasks, image classification, and masked language modeling. We use the HMM representation to study phase transitions and identify latent ‘detour’ states that slow down convergence.

arxiv情報

著者 Michael Y. Hu,Angelica Chen,Naomi Saphra,Kyunghyun Cho
発行日 2023-08-18 13:20:08+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク