要約
私たちは、時間方向性の角度を通じて自己回帰大規模言語モデル (LLM) によって実行される確率的モデリングを研究し、(Shannon、1951) で最初に提起された疑問に取り組みます。
十分に大規模なモデルの場合、自然言語を学習する能力に時間の非対称性があることが経験的にわかります。これは、次のトークンを予測しようとするときと、前のトークンを予測しようとするときの平均対数複雑さの違いです。
この違いは微妙であると同時に、さまざまなモダリティ (言語、モデル サイズ、トレーニング時間など) にわたって非常に一貫しています。
理論的には、これは驚くべきことです。情報理論の観点からは、そのような違いは存在しないはずです。
我々は、そのような非対称性がスパース性と計算複雑性の考慮からどのように現れるかを説明する理論的枠組みを提供し、我々の結果によって開かれた多くの視点を概説します。
要約(オリジナル)
We study the probabilistic modeling performed by Autoregressive Large Language Models (LLMs) through the angle of time directionality, addressing a question first raised in (Shannon, 1951). For large enough models, we empirically find a time asymmetry in their ability to learn natural language: a difference in the average log-perplexity when trying to predict the next token versus when trying to predict the previous one. This difference is at the same time subtle and very consistent across various modalities (language, model size, training time, …). Theoretically, this is surprising: from an information-theoretic point of view, there should be no such difference. We provide a theoretical framework to explain how such an asymmetry can appear from sparsity and computational complexity considerations, and outline a number of perspectives opened by our results.
arxiv情報
著者 | Vassilis Papadopoulos,Jérémie Wenger,Clément Hongler |
発行日 | 2024-07-24 12:57:56+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google