要約
トランスフォーマーのトレーニング ダイナミクスに関する最近の分析により、興味深い特徴が明らかになりました。それは、トレーニング損失がかなりの数のトレーニング ステップでプラトーになり、その後突然 (そして急激に) ほぼ最適な値まで低下するというものです。
この現象を深く理解するために、低ランク行列補完問題をマスク言語モデリング (MLM) タスクとして定式化し、このタスクを低エラーで解決するために BERT モデルをトレーニングできることを示します。
さらに、損失曲線は、トレーニング手順やハイパーパラメーターに変更がないにもかかわらず、トレーニングの初期にプラトーに続いて最適近くの値まで突然低下することを示しています。
この突然の低下に対する解釈可能性の洞察を得るために、この遷移の前後のモデルの予測、注目点、および隠れた状態を調べます。
具体的には、(a) モデルが、マスクされた入力を単にコピーすることから、マスクされたエントリを正確に予測する状態に移行することが観察されます。
(b) アテンションヘッドは、タスクに関連する解釈可能なパターンに移行します。
(c) 埋め込みと隠れ状態は、問題に関連する情報をエンコードします。
また、損失の突然の低下を理解するために、個々のモデル コンポーネントのトレーニング ダイナミクスも分析します。
要約(オリジナル)
Recent analysis on the training dynamics of Transformers has unveiled an interesting characteristic: the training loss plateaus for a significant number of training steps, and then suddenly (and sharply) drops to near–optimal values. To understand this phenomenon in depth, we formulate the low-rank matrix completion problem as a masked language modeling (MLM) task, and show that it is possible to train a BERT model to solve this task to low error. Furthermore, the loss curve shows a plateau early in training followed by a sudden drop to near-optimal values, despite no changes in the training procedure or hyper-parameters. To gain interpretability insights into this sudden drop, we examine the model’s predictions, attention heads, and hidden states before and after this transition. Concretely, we observe that (a) the model transitions from simply copying the masked input to accurately predicting the masked entries; (b) the attention heads transition to interpretable patterns relevant to the task; and (c) the embeddings and hidden states encode information relevant to the problem. We also analyze the training dynamics of individual model components to understand the sudden drop in loss.
arxiv情報
著者 | Pulkit Gopalani,Ekdeep Singh Lubana,Wei Hu |
発行日 | 2024-10-29 17:08:06+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google