要約
複数のドメインにわたって実証された推論能力を備えた大規模な言語モデル(LLM)は、現実世界で遍在する時系列推論(TSR)にはほとんど不足していません。
この作業では、LLMSのTSRパフォーマンスを評価するための最初の包括的なテストベッドであるTimerBedを提案します。
具体的には、タイマーベッドには、実際のタスク、LLMSの包括的な組み合わせと推論戦略、および比較アンカーとしてのさまざまな監視モデルを備えた層別推論パターンが含まれます。
タイマー付きの広範な実験を実行し、複数の電流信念をテストし、TSRのLLMの初期障害を検証します。これは、ゼロショット(ZST)の非効率性と、少数のショット内学習(ICL)のパフォーマンス低下によって証明されます。
さらに、1つの考えられる根本原因を特定します:データの数値モデリング。
これに対処するために、視覚化モデルのデータと言語誘導推論を使用して、プロンプトベースのソリューションVL-Timeを提案します。
実験結果は、VL-Timeにより、マルチモーダルLLMが時系列の非自明のZSTおよび強力なICL推論を可能にし、約140%の平均パフォーマンス改善と99%の平均トークンコスト削減を達成することを示しています。
要約(オリジナル)
Large language models (LLMs), with demonstrated reasoning abilities across multiple domains, are largely underexplored for time-series reasoning (TsR), which is ubiquitous in the real world. In this work, we propose TimerBed, the first comprehensive testbed for evaluating LLMs’ TsR performance. Specifically, TimerBed includes stratified reasoning patterns with real-world tasks, comprehensive combinations of LLMs and reasoning strategies, and various supervised models as comparison anchors. We perform extensive experiments with TimerBed, test multiple current beliefs, and verify the initial failures of LLMs in TsR, evidenced by the ineffectiveness of zero shot (ZST) and performance degradation of few shot in-context learning (ICL). Further, we identify one possible root cause: the numerical modeling of data. To address this, we propose a prompt-based solution VL-Time, using visualization-modeled data and language-guided reasoning. Experimental results demonstrate that Vl-Time enables multimodal LLMs to be non-trivial ZST and powerful ICL reasoners for time series, achieving about 140% average performance improvement and 99% average token costs reduction.
arxiv情報
著者 | Haoxin Liu,Chenghao Liu,B. Aditya Prakash |
発行日 | 2025-04-25 16:39:41+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google