Local to Global: Learning Dynamics and Effect of Initialization for Transformers

要約

近年、トランスフォーマーベースのモデルは、特にシーケンスモデリングにおいて深層学習に革命をもたらしました。
この現象をより深く理解するために、マルコフ入力プロセスを使用して変圧器を研究することへの関心が高まっています。
しかし、この点に関する私たちの現在の理解は限られており、変換器がマルコフ連鎖をどのように学習するかについての多くの基本的な疑問は依然として未解決のままです。
この論文では、一次マルコフ連鎖と単層トランスフォーマーに焦点を当ててこれに取り組み、この文脈における学習ダイナミクスの包括的な特徴付けを提供します。
具体的には、次のトークンの予測損失でトレーニングされた変換パラメーターが、初期化とマルコフ データ プロパティに応じて大域最小値または極小値のいずれかに収束できることを証明し、これが発生する正確な条件を特徴付けます。
私たちの知る限り、これは初期化の役割を強調したこの種の最初の結果です。
さらに、理論的発見が経験的証拠によって裏付けられていることを示します。
これらの洞察に基づいて、変圧器パラメータの初期化に関するガイドラインを提供し、その有効性を実証します。
最後に、この分野におけるいくつかの未解決の問題について概説します。
コードは https://github.com/Bond1995/Markov から入手できます。

要約(オリジナル)

In recent years, transformer-based models have revolutionized deep learning, particularly in sequence modeling. To better understand this phenomenon, there is a growing interest in using Markov input processes to study transformers. However, our current understanding in this regard remains limited with many fundamental questions about how transformers learn Markov chains still unanswered. In this paper, we address this by focusing on first-order Markov chains and single-layer transformers, providing a comprehensive characterization of the learning dynamics in this context. Specifically, we prove that transformer parameters trained on next-token prediction loss can either converge to global or local minima, contingent on the initialization and the Markovian data properties, and we characterize the precise conditions under which this occurs. To the best of our knowledge, this is the first result of its kind highlighting the role of initialization. We further demonstrate that our theoretical findings are corroborated by empirical evidence. Based on these insights, we provide guidelines for the initialization of transformer parameters and demonstrate their effectiveness. Finally, we outline several open problems in this arena. Code is available at: https://github.com/Bond1995/Markov.

arxiv情報

著者 Ashok Vardhan Makkuva,Marco Bondaschi,Chanakya Ekbote,Adway Girish,Alliot Nagle,Hyeji Kim,Michael Gastpar
発行日 2024-06-27 15:05:17+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, stat.ML パーマリンク