Linear attention is (maybe) all you need (to understand transformer optimization)

要約

トランスフォーマーのトレーニングは難しいことで知られており、オプティマイザーの慎重な設計とさまざまなヒューリスティックの使用が必要です。
シンプルでありながら標準的な線形化された浅い Transformer モデルを注意深く研究することで、Transformer のトレーニングの微妙な点の理解に向けて前進しています。
具体的には、J.~von Oswald et al.~(ICML 2023) および K.~Ahn et al.~(NeurIPS 2023) に触発されて、回帰タスクを解決するために線形 Transformers をトレーニングします。
最も重要なことは、提案した線形化モデルが Transformer トレーニング ダイナミクスのいくつかの顕著な側面を再現できることを観察したことです。
したがって、この論文で得られた結果は、単純な線形化された Transformer モデルが、実際に Transformer の最適化を理解するための貴重で現実的な抽象化である可能性があることを示唆しています。

要約(オリジナル)

Transformer training is notoriously difficult, requiring a careful design of optimizers and use of various heuristics. We make progress towards understanding the subtleties of training Transformers by carefully studying a simple yet canonical linearized shallow Transformer model. Specifically, we train linear Transformers to solve regression tasks, inspired by J.~von Oswald et al.~(ICML 2023), and K.~Ahn et al.~(NeurIPS 2023). Most importantly, we observe that our proposed linearized models can reproduce several prominent aspects of Transformer training dynamics. Consequently, the results obtained in this paper suggest that a simple linearized Transformer model could actually be a valuable, realistic abstraction for understanding Transformer optimization.

arxiv情報

著者 Kwangjun Ahn,Xiang Cheng,Minhak Song,Chulhee Yun,Ali Jadbabaie,Suvrit Sra
発行日 2024-03-13 16:48:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク