Large Language Models as Markov Chains

要約

大規模言語モデル(LLM)は、自然言語処理タスクの広い範囲において、またそれ以上のタスクにおいても、驚くほど効率的である。しかしながら、LLMの汎化能力に関する包括的な理論的解析は、未だ手つかずのままである。本論文では、自己回帰変換器に基づく言語モデルと有限状態空間上で定義されるマルコフ連鎖との間の等価性を描くことによって、この課題にアプローチする。これにより、LLMの多段階推論メカニズムを第一原理から研究することができる。得られた結果を、LLMで観察される、高温での繰り返しや支離滅裂な返答などの病理学的挙動と関連付ける。最後に、提案した定式化を活用して、現実的なデータとモデルの仮定の下で、LLMの事前学習と文脈内学習の汎化境界を導出する。最新のLlamaとGemmaの群れを用いた実験により、我々の理論が実際のLLMの振る舞いを正しく捉えていることを示す。

要約(オリジナル)

Large language models (LLMs) are remarkably efficient across a wide range of natural language processing tasks and well beyond them. However, a comprehensive theoretical analysis of the LLMs’ generalization capabilities remains elusive. In our paper, we approach this task by drawing an equivalence between autoregressive transformer-based language models and Markov chains defined on a finite state space. This allows us to study the multi-step inference mechanism of LLMs from first principles. We relate the obtained results to the pathological behavior observed with LLMs such as repetitions and incoherent replies with high temperature. Finally, we leverage the proposed formalization to derive pre-training and in-context learning generalization bounds for LLMs under realistic data and model assumptions. Experiments with the most recent Llama and Gemma herds of models show that our theory correctly captures their behavior in practice.

arxiv情報

著者 Oussama Zekri,Ambroise Odonnat,Abdelhakim Benechehab,Linus Bleistein,Nicolas Boullé,Ievgen Redko
発行日 2025-02-02 15:57:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG, stat.ML パーマリンク