Context parroting: A simple but tough-to-beat baseline for foundation models in scientific machine learning

要約

科学機械学習のための最近開発された時系列基礎モデルは、物理システムを予測する緊急能力を示しています。
これらの能力には、モデルがコンテキストとして短い軌跡のみが与えられたシステムの将来の状態を予測するゼロショット予測が含まれます。
ここでは、物理システムに適用される基礎モデルが正確な予測を与えることができるが、基礎となる物理学の意味のある表現を開発できないことを示します。
代わりに、基礎モデルは、コンテキストから直接コピーするシンプルなゼロショット予測戦略であるコンテキストオウムによって予測されることがよくあります。
その結果、素朴な直接コンテキストオウムモデルは、計算コストのごく一部で、多様な動的システムの予測に関する最先端の時系列基礎モデルよりも高いスコアをスコアスコアします。
コンテキストのオウムと誘導ヘッドの間に類似点を描きます。これは、テキストで訓練された大規模な言語モデルを時系列予測のために再利用できる理由を説明しています。
また、私たちの動的システムの観点は、予測の精度とコンテキストの長さのスケーリングをアトラクタのフラクタル次元に結び付け、以前に観察された内部神経スケーリング法則に関する洞察を提供します。
したがって、コンテキストオウムは、将来のタイムシリーズファンデーションモデルのシンプルだが困難なベースラインとして機能し、オウムを超えたコンテキスト学習戦略を特定するのに役立ちます。

要約(オリジナル)

Recently-developed time series foundation models for scientific machine learning exhibit emergent abilities to predict physical systems. These abilities include zero-shot forecasting, in which a model forecasts future states of a system given only a short trajectory as context. Here, we show that foundation models applied to physical systems can give accurate predictions, but that they fail to develop meaningful representations of the underlying physics. Instead, foundation models often forecast by context parroting, a simple zero-shot forecasting strategy that copies directly from the context. As a result, a naive direct context parroting model scores higher than state-of-the-art time-series foundation models on predicting a diverse range of dynamical systems, at a tiny fraction of the computational cost. We draw a parallel between context parroting and induction heads, which explains why large language models trained on text can be repurposed for time series forecasting. Our dynamical systems perspective also ties the scaling between forecast accuracy and context length to the fractal dimension of the attractor, providing insight into the previously observed in-context neural scaling laws. Context parroting thus serves as a simple but tough-to-beat baseline for future time-series foundation models and can help identify in-context learning strategies beyond parroting.

arxiv情報

著者 Yuanzhao Zhang,William Gilpin
発行日 2025-05-16 15:14:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, nlin.CD, physics.comp-ph パーマリンク