要約
マルチモーダル大規模言語モデル (MLLM) により、視覚などの領域における理解と推論において数多くの進歩が可能になりましたが、時系列に関してはこれほど広範な成功はまだ見ていません。
時系列 MLLM に関するこれまでの研究では、時系列予測において有望なパフォーマンスが示されていますが、LLM を自然言語での時系列推論にどのように使用できるかを示した研究はほとんどありません。
私たちは、強力なゼロショット パフォーマンスでさまざまなドメインにわたる一般化可能な情報を学習する、新しいマルチモーダル時系列 LLM アプローチを提案します。
まず、時系列情報を直接抽出するために、LLM 上で軽量の時系列エンコーダーをトレーニングします。
次に、思考連鎖を強化した時系列タスクを使用してモデルを微調整し、モデルが推論パスを生成できるようにします。
私たちのモデルが、特定の時系列特徴 (傾き、周波数など) を反映する潜在表現を学習し、さまざまなドメインの一連のゼロショット推論タスクで GPT-4o を上回るパフォーマンスを示すことを示します。
要約(オリジナル)
Multi-modal large language models (MLLMs) have enabled numerous advances in understanding and reasoning in domains like vision, but we have not yet seen this broad success for time-series. Although prior works on time-series MLLMs have shown promising performance in time-series forecasting, very few works show how an LLM could be used for time-series reasoning in natural language. We propose a novel multi-modal time-series LLM approach that learns generalizable information across various domains with powerful zero-shot performance. First, we train a lightweight time-series encoder on top of an LLM to directly extract time-series information. Then, we fine-tune our model with chain-of-thought augmented time-series tasks to encourage the model to generate reasoning paths. We show that our model learns a latent representation that reflects specific time-series features (e.g. slope, frequency), as well as outperforming GPT-4o on a set of zero-shot reasoning tasks on a variety of domains.
arxiv情報
著者 | Winnie Chow,Lauren Gardiner,Haraldur T. Hallgrímsson,Maxwell A. Xu,Shirley You Ren |
発行日 | 2024-09-17 17:23:44+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google