Arrows of Time for Large Language Models

要約

我々は、自己回帰型大規模言語モデル(LLM)が行う確率的モデリングを、時間方向性という切り口で研究し、(Shannon, 1951)で最初に提起された問題に取り組む。十分な大きさのモデルに対して、我々は経験的に自然言語を学習する能力に時間的な非対称性を発見した:次のトークンを予測しようとするときと、前のトークンを予測しようとするときの平均対数処理量の違いである。この差は微妙であると同時に、様々なモダリティ(言語、モデルサイズ、学習時間など)において非常に一貫している。情報理論的な観点からは、このような違いはないはずである。我々は、このような非対称性がスパース性と計算複雑性の考慮からどのように現れるかを説明する理論的枠組みを提供し、我々の結果によって開かれる多くの観点を概説する。

要約(オリジナル)

We study the probabilistic modeling performed by Autoregressive Large Language Models (LLMs) through the angle of time directionality, addressing a question first raised in (Shannon, 1951). For large enough models, we empirically find a time asymmetry in their ability to learn natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, …). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.

arxiv情報

著者 Vassilis Papadopoulos,Jérémie Wenger,Clément Hongler
発行日 2024-06-03 17:35:04+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク