要約
時系列の推論は、動的な時間的パターン、曖昧なセマンティクス、および時間的前層の欠如のため、マルチモーダルの大手言語モデル(MLLM)において重要な課題のままです。
この作業では、タイムシリーズMLLMが視覚化された時系列の入力とタスクプロンプトに対して直接的に解釈可能な推論を直接実行できるようにするための、強化学習(RL)ベースの方法であるTimemasterを紹介します。
Timemasterは、3部構成の構造化された出力形式、推論、分類、およびドメイン固有の拡張機能を採用し、アドヒアランス、予測精度、およびオープンエンドの洞察品質を調整する複合報酬関数を介して最適化されます。
このモデルは、2段階のパイプラインを使用してトレーニングされています。まず、監視された微調整(SFT)を適用して適切な初期化を確立し、その後、トークンレベルでグループ相対ポリシー最適化(GRPO)が続き、時間系列の推論における安定したターゲットを絞った報酬駆動型の改善を可能にします。
QWEN2.5-VL-3B-Instructに基づいた6つの実際の分類タスクにわたって、タイマーベンチマークのタイムマスターを評価します。
Timemasterは、最先端のパフォーマンスを達成し、クラシックタイムシリーズモデルと少数のGPT-4Oの両方をそれぞれ14.6%以上および7.3%以上のパフォーマンスゲインよりも優れています。
特に、Timemasterは時系列の分類を超えています。また、専門家のような推論行動を示し、コンテキストを意識した説明を生成し、ドメインに並べられた洞察を提供します。
私たちの結果は、報酬駆動型のRLが、時間シリーズMLLMに一時的な理解を統合するためのスケーラブルで有望なパスになる可能性があることを強調しています。
要約(オリジナル)
Time-series reasoning remains a significant challenge in multimodal large language models (MLLMs) due to the dynamic temporal patterns, ambiguous semantics, and lack of temporal priors. In this work, we introduce TimeMaster, a reinforcement learning (RL)-based method that enables time-series MLLMs to perform structured, interpretable reasoning directly over visualized time-series inputs and task prompts. TimeMaster adopts a three-part structured output format, reasoning, classification, and domain-specific extension, and is optimized via a composite reward function that aligns format adherence, prediction accuracy, and open-ended insight quality. The model is trained using a two-stage pipeline: we first apply supervised fine-tuning (SFT) to establish a good initialization, followed by Group Relative Policy Optimization (GRPO) at the token level to enable stable and targeted reward-driven improvement in time-series reasoning. We evaluate TimeMaster on the TimerBed benchmark across six real-world classification tasks based on Qwen2.5-VL-3B-Instruct. TimeMaster achieves state-of-the-art performance, outperforming both classical time-series models and few-shot GPT-4o by over 14.6% and 7.3% performance gain, respectively. Notably, TimeMaster goes beyond time-series classification: it also exhibits expert-like reasoning behavior, generates context-aware explanations, and delivers domain-aligned insights. Our results highlight that reward-driven RL can be a scalable and promising path toward integrating temporal understanding into time-series MLLMs.
arxiv情報
著者 | Junru Zhang,Lang Feng,Xu Guo,Yuhan Wu,Yabo Dong,Duanqing Xu |
発行日 | 2025-06-16 17:12:26+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google