Plots Unlock Time-Series Understanding in Multimodal Models

要約

マルチモーダル基礎モデルは、テキスト以外のデータもネイティブに扱うことができるようになったが、ヘルスケア、金融、社会科学などの分野では、多次元の時系列データの分析にはまだ十分に活用されておらず、より豊かなデータ駆動型洞察の機会を逃している。本論文では、これらのモデルの既存のビジョンエンコーダを活用し、プロットを通じて時系列データを「見る」ことで、追加的でコストがかかる可能性のあるモデルトレーニングの必要性を回避する、シンプルだが効果的な手法を提案する。我々の実証的な評価では、このアプローチは生の時系列データをテキストとして提供するよりも優れており、さらに視覚的な時系列表現はモデルのAPIコストを最大90%削減するという利点もある。我々は、クリーンなデータに対する単純な関数形の同定から、ノイズの多い散布図からのトレンドの抽出まで、複雑さを増す合成データタスクを通して我々の仮説を検証する。明確な推論ステップを持つ合成タスクから、より複雑な実世界のシナリオへの一般性を実証するために、我々は我々のアプローチを消費者の健康タスクに適用する。GPTとGeminiモデルファミリーの両方において、テキスト性能よりもプロット性能(ゼロショット合成タスクでは最大120%の性能向上、実世界タスクでは最大150%の性能向上)に全体的に成功したことは、基礎モデルのネイティブ能力を最大限に活用する我々のアプローチの可能性を浮き彫りにしている。

要約(オリジナル)

While multimodal foundation models can now natively work with data beyond text, they remain underutilized in analyzing the considerable amounts of multi-dimensional time-series data in fields like healthcare, finance, and social sciences, representing a missed opportunity for richer, data-driven insights. This paper proposes a simple but effective method that leverages the existing vision encoders of these models to ‘see’ time-series data via plots, avoiding the need for additional, potentially costly, model training. Our empirical evaluations show that this approach outperforms providing the raw time-series data as text, with the additional benefit that visual time-series representations demonstrate up to a 90% reduction in model API costs. We validate our hypothesis through synthetic data tasks of increasing complexity, progressing from simple functional form identification on clean data, to extracting trends from noisy scatter plots. To demonstrate generalizability from synthetic tasks with clear reasoning steps to more complex, real-world scenarios, we apply our approach to consumer health tasks – specifically fall detection, activity recognition, and readiness assessment – which involve heterogeneous, noisy data and multi-step reasoning. The overall success in plot performance over text performance (up to an 120% performance increase on zero-shot synthetic tasks, and up to 150% performance increase on real-world tasks), across both GPT and Gemini model families, highlights our approach’s potential for making the best use of the native capabilities of foundation models.

arxiv情報

著者 Mayank Daswani,Mathias M. J. Bellaiche,Marc Wilson,Desislav Ivanov,Mikhail Papkov,Eva Schnider,Jing Tang,Kay Lamerigts,Gabriela Botea,Michael A. Sanchez,Yojan Patel,Shruthi Prabhakara,Shravya Shetty,Umesh Telang
発行日 2024-10-03 16:23:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV パーマリンク