Birth of a Transformer: A Memory Viewpoint

要約

トランスフォーマーに基づく大規模な言語モデルは、経験的に大きな成功を収めています。
しかし、より広範囲に導入されるにつれて、信頼性を高めるためにその内部メカニズムをより深く理解する必要性が高まっています。
これらのモデルは、トレーニング データからの膨大な量の知識を保存し、コンテキストやプロンプトで提供される新しい情報に迅速に適応するようです。
私たちは、トークンがグローバルまたはコンテキスト固有のバイグラム分布から生成される合成セットアップを考慮することで、トランスフォーマーがこれら 2 種類の知識のバランスをどのように取るかを研究します。
簡略化された 2 層トランスフォーマでのトレーニング プロセスを慎重に実証分析することにより、グローバル バイグラムの高速学習と、コンテキスト内バイグラムの「誘導ヘッド」メカニズムの開発が遅いことを示します。
私たちは、連想記憶としての重み行列の役割を強調し、勾配がトレーニング中の学習をどのように可能にするかについて理論的な洞察を提供し、データ分布特性の役割を研究します。

要約(オリジナル)

Large language models based on transformers have achieved great empirical successes. However, as they are deployed more widely, there is a growing need to better understand their internal mechanisms in order to make them more reliable. These models appear to store vast amounts of knowledge from their training data, and to adapt quickly to new information provided in their context or prompt. We study how transformers balance these two types of knowledge by considering a synthetic setup where tokens are generated from either global or context-specific bigram distributions. By a careful empirical analysis of the training process on a simplified two-layer transformer, we illustrate the fast learning of global bigrams and the slower development of an ‘induction head’ mechanism for the in-context bigrams. We highlight the role of weight matrices as associative memories, provide theoretical insights on how gradients enable their learning during training, and study the role of data-distributional properties.

arxiv情報

著者 Alberto Bietti,Vivien Cabannes,Diane Bouchacourt,Herve Jegou,Leon Bottou
発行日 2023-06-01 15:30:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL, cs.LG, stat.ML パーマリンク