Mechanism and Emergence of Stacked Attention Heads in Multi-Layer Transformers

要約

この論文では、検索問題を紹介します。これは、入力サイズで対数的に成長する最小数のレイヤーで変圧器によってのみ解決できる単純で一般的な推論タスクです。
私は、大規模な言語モデルが微調整なしで異なるプロンプトの定式化の下でタスクを解決できることを経験的に示します。
トランスが検索の問題をどのように解決するかを理解するために、最小限の処方でいくつかの変圧器を訓練します。
成功した学習は、暗黙のカリキュラムの存在下でのみ発生します。
訓練された変圧器の注意マップを研究することにより、学んだメカニズムを明らかにします。
また、トレーニングプロセスを研究し、暗黙のカリキュラムによって導かれた特定のシーケンスで常に注意ヘッドが出現することを明らかにします。

要約(オリジナル)

In this paper, I introduce the retrieval problem, a simple yet common reasoning task that can be solved only by transformers with a minimum number of layers, which grows logarithmically with the input size. I empirically show that large language models can solve the task under different prompting formulations without any fine-tuning. To understand how transformers solve the retrieval problem, I train several transformers on a minimal formulation. Successful learning occurs only under the presence of an implicit curriculum. I uncover the learned mechanisms by studying the attention maps in the trained transformers. I also study the training process, uncovering that attention heads always emerge in a specific sequence guided by the implicit curriculum.

arxiv情報

著者 Tiberiu Musat
発行日 2025-02-14 12:56:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG パーマリンク