要約
大規模言語モデル (LLM) は、入力シーケンスのコンテキスト内の情報を利用して、トレーニング手順中に LLM が認識しないデータに適切に応答するという優れた能力を示しています。
この能力は、コンテキスト内学習 (ICL) として知られています。
人間と人間以外の動物は同様の能力を示しますが、その神経構造は LLM とは大きく異なります。
それにもかかわらず、LLM 内の重要なコンポーネントである注意メカニズムは、生物学的記憶システムをモデル化するために計算神経科学コミュニティで広く使用され、影響を受けている現代の連想記憶モデルに似ています。
この接続を使用して、ICL を実行できる連想記憶モデルを導入します。
私たちはこれを、アテンション ヘッド間で情報が直接流れることを可能にする新しい残差ストリーム アーキテクチャのインスピレーションとして使用します。
2 層の Transformer 内でトレーニング中にこのアーキテクチャをテストし、この変更を加えない場合よりも早くその ICL 機能が現れることを示します。
次に、アテンションヘッドの値に焦点を当てて、800 万のパラメータを持つ小規模な言語モデルにアーキテクチャを適用しました。結果は、このより大きくより自然なスケールでの ICL パフォーマンスの向上も示しています。
要約(オリジナル)
Large language models (LLMs) demonstrate an impressive ability to utilise information within the context of their input sequences to appropriately respond to data unseen by the LLM during its training procedure. This ability is known as in-context learning (ICL). Humans and non-human animals demonstrate similar abilities, however their neural architectures differ substantially from LLMs. Despite this, a critical component within LLMs, the attention mechanism, resembles modern associative memory models, widely used in and influenced by the computational neuroscience community to model biological memory systems. Using this connection, we introduce an associative memory model capable of performing ICL. We use this as inspiration for a novel residual stream architecture which allows information to directly flow between attention heads. We test this architecture during training within a two-layer Transformer and show its ICL abilities manifest more quickly than without this modification. We then apply our architecture in small language models with 8 million parameters, focusing on attention head values, with results also indicating improved ICL performance at this larger and more naturalistic scale.
arxiv情報
著者 | Thomas F Burns,Tomoki Fukai,Christopher J Earls |
発行日 | 2024-12-19 17:55:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google