要約
私たちは、長距離依存関係を支配する自然言語で法律をスケーリングする二部の相互情報拡張法を厳密に確立します。
私たちが示すこのスケーリング法は、従来の2点相互情報とは独立して異なるものであり、スケールであり、長いコンテキスト言語モデリングを理解するための鍵です。
このスケーリング法則を使用して、長いコンテスト言語モデリング(L $^2 $ m)条件を策定します。これは、過去の情報を保存するための潜在的な状態サイズのスケーリングに、効果的な長いコンテキスト長モデリングのモデルの容量を関連付けます。
私たちの結果は、変圧器と状態空間モデルの両方での実験を通じて検証されています。
この作業は、より長いコンテキストの長さに向けて大規模な言語モデルの開発を導く理論的基盤を確立します。
要約(オリジナル)
We rigorously establish a bipartite mutual information scaling law in natural language that governs long-range dependencies. This scaling law, which we show is distinct from and scales independently of the conventional two-point mutual information, is the key to understanding long-context language modeling. Using this scaling law, we formulate the Long-context Language Modeling (L$^2$M) condition, which relates a model’s capacity for effective long context length modeling to the scaling of its latent state size for storing past information. Our results are validated through experiments on both transformers and state space models. This work establishes a theoretical foundation that guides the development of large language models toward longer context lengths.
arxiv情報
著者 | Zhuo Chen,Oriol Mayné i Comas,Zhuotao Jin,Di Luo,Marin Soljačić |
発行日 | 2025-03-06 18:59:48+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google