The Matrix: A Bayesian learning model for LLMs

要約

本稿では、大規模言語モデル(LLM)の振る舞いを理解するためのベイズ学習モデルを紹介する。次のトークンの予測に基づくLLMの最適化指標を探求し、この原理に基づいた新しいモデルを開発する。我々のアプローチでは、事前分布を持つ多項遷移確率行列で表される理想的な生成テキストモデルを構築し、LLMがこの行列をどのように近似するかを調べる。埋め込みと多項分布間の写像の連続性について議論し、任意の事前分布を近似するディリクレ近似定理を示す。さらに、LLMによるテキスト生成がどのようにベイズ学習原理に合致しているかを示し、特に、プロンプトが更新されるべきサンプルとして考慮されるような大規模モデルにおいて、なぜ文脈内学習が出現するのかを説明しながら、文脈内学習の意味を掘り下げる。その結果、LLMの振る舞いがベイズ学習と一致することが示され、LLMの機能と応用の可能性について新たな知見が得られた。

要約(オリジナル)

In this paper, we introduce a Bayesian learning model to understand the behavior of Large Language Models (LLMs). We explore the optimization metric of LLMs, which is based on predicting the next token, and develop a novel model grounded in this principle. Our approach involves constructing an ideal generative text model represented by a multinomial transition probability matrix with a prior, and we examine how LLMs approximate this matrix. We discuss the continuity of the mapping between embeddings and multinomial distributions, and present the Dirichlet approximation theorem to approximate any prior. Additionally, we demonstrate how text generation by LLMs aligns with Bayesian learning principles and delve into the implications for in-context learning, specifically explaining why in-context learning emerges in larger models where prompts are considered as samples to be updated. Our findings indicate that the behavior of LLMs is consistent with Bayesian Learning, offering new insights into their functioning and potential applications.

arxiv情報

著者 Siddhartha Dalal,Vishal Misra
発行日 2024-02-05 16:42:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG, I.2.7 パーマリンク