要約
大規模言語モデル(LLM)は、自然言語処理タスクの広い範囲において、またそれ以上のタスクにおいても、驚くほど効率的であることが証明されている。しかしながら、その素晴らしい性能の起源に関する包括的な理論的解析は、未だ手つかずのままである。本論文では、サイズ$T$の語彙とサイズ$K$の文脈窓を持つ一般的な自己回帰言語モデルと、サイズ$mathcal{O}(T^K)$の有限状態空間上で定義されるマルコフ連鎖との等価性を描くことで、この困難な課題にアプローチする。LLMの推論力、LLMへの収束速度、LLMへの温度の影響などを捉えるマルコフ連鎖の定常分布の存在に関するいくつかの驚くべき知見を導く。次に、事前学習と文脈内汎化境界を証明し、描かれた同値性によってその解釈がどのように豊かになるかを示す。最後に、理論的な保証を、いくつかの最近のLLMを用いた実験によって説明し、それらが実際に観測された振る舞いをどのように捉えているかを強調する。
要約(オリジナル)
Large language models (LLMs) have proven to be remarkably efficient, both across a wide range of natural language processing tasks and well beyond them. However, a comprehensive theoretical analysis of the origins of their impressive performance remains elusive. In this paper, we approach this challenging task by drawing an equivalence between generic autoregressive language models with vocabulary of size $T$ and context window of size $K$ and Markov chains defined on a finite state space of size $\mathcal{O}(T^K)$. We derive several surprising findings related to the existence of a stationary distribution of Markov chains that capture the inference power of LLMs, their speed of convergence to it, and the influence of the temperature on the latter. We then prove pre-training and in-context generalization bounds and show how the drawn equivalence allows us to enrich their interpretation. Finally, we illustrate our theoretical guarantees with experiments on several recent LLMs to highlight how they capture the behavior observed in practice.
arxiv情報
著者 | Oussama Zekri,Ambroise Odonnat,Abdelhakim Benechehab,Linus Bleistein,Nicolas Boullé,Ievgen Redko |
発行日 | 2024-10-03 17:45:31+00:00 |
arxivサイト | arxiv_id(pdf) |