要約
この論文では、大規模言語モデル (LLM) の動作を説明するための新しいベイジアン学習モデルを紹介し、次のトークン予測の中核となる最適化メトリクスに焦点を当てます。
私たちは、事前分布を伴う多項遷移確率行列で表される理想的な生成テキスト モデルに基づいた理論的フレームワークを開発し、LLM がこの行列をどのように近似するかを調べます。
主な貢献には、(i) 埋め込みを多項分布に関連付ける連続定理、(ii) LLM テキスト生成がベイジアン学習原則と一致することの実証、(iii) より大きなモデルにおけるコンテキスト内学習の出現の説明、(iv) が含まれます。
) インストルメント化された Llama モデルからの次のトークンの確率の視覚化を使用した経験的検証 私たちの調査結果は、LLM の機能に関する新たな洞察を提供し、LLM の機能と制限を理解するための統計的基盤を提供します。
このフレームワークは LLM の設計、トレーニング、およびアプリケーションに影響を及ぼし、この分野の将来の開発を導く可能性があります。
要約(オリジナル)
This paper introduces a novel Bayesian learning model to explain the behavior of Large Language Models (LLMs), focusing on their core optimization metric of next token prediction. We develop a theoretical framework based on an ideal generative text model represented by a multinomial transition probability matrix with a prior, and examine how LLMs approximate this matrix. Key contributions include: (i) a continuity theorem relating embeddings to multinomial distributions, (ii) a demonstration that LLM text generation aligns with Bayesian learning principles, (iii) an explanation for the emergence of in-context learning in larger models, (iv) empirical validation using visualizations of next token probabilities from an instrumented Llama model Our findings provide new insights into LLM functioning, offering a statistical foundation for understanding their capabilities and limitations. This framework has implications for LLM design, training, and application, potentially guiding future developments in the field.
arxiv情報
著者 | Siddhartha Dalal,Vishal Misra |
発行日 | 2024-09-24 13:30:25+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google