LLMs learn governing principles of dynamical systems, revealing an in-context neural scaling law

要約

事前トレーニングされた大規模言語モデル (LLM) は、時系列予測などのゼロショット タスクの実行において驚くほど効果的です。
ただし、モデルが複雑であるため、そのような機能の背後にあるメカニズムを理解することは依然として非常に困難です。
この論文では、物理的関心の原理によって進化が支配される動的システムの挙動を推定する LLM の能力を研究します。
私たちの結果は、主にテキストでトレーニングされた言語モデルである LLaMA 2 が、微調整や迅速なエンジニアリングを行わなくても、動的システム時系列の正確な予測を達成できることを示しています。
さらに、学習された物理規則の精度は入力コンテキスト ウィンドウの長さに応じて増加し、ニューラル スケーリング則のコンテキスト内バージョンが明らかになります。
その過程で、LLM から直接複数桁の数値の確率密度関数を抽出するための柔軟で効率的なアルゴリズムを紹介します。

要約(オリジナル)

Pretrained large language models (LLMs) are surprisingly effective at performing zero-shot tasks, including time-series forecasting. However, understanding the mechanisms behind such capabilities remains highly challenging due to the complexity of the models. In this paper, we study LLMs’ ability to extrapolate the behavior of dynamical systems whose evolution is governed by principles of physical interest. Our results show that LLaMA 2, a language model trained primarily on texts, achieves accurate predictions of dynamical system time series without fine-tuning or prompt engineering. Moreover, the accuracy of the learned physical rules increases with the length of the input context window, revealing an in-context version of neural scaling law. Along the way, we present a flexible and efficient algorithm for extracting probability density functions of multi-digit numbers directly from LLMs.

arxiv情報

著者 Toni J. B. Liu,Nicolas Boullé,Raphaël Sarfati,Christopher J. Earls
発行日 2024-02-01 17:28:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク