Evaluating Large Language Models on Time Series Feature Understanding: A Comprehensive Taxonomy and Benchmark

要約

大規模言語モデル (LLM) は、自動時系列分析とレポート作成の可能性を提供します。これは、医療、金融、気候、エネルギーなど、多くの領域にわたる重要なタスクです。
この論文では、単変量形式と多変量形式の両方を含む、時系列理解に関する LLM の能力を厳密に評価するためのフレームワークを提案します。
時系列データに固有のさまざまな特性を説明する重要なフレームワークである、時系列特徴の包括的な分類法を紹介します。
この分類法を活用して、さまざまな概説された特徴を具体化する、時系列の多様なデータセットを体系的に設計および合成しました。
このデータセットは、時系列を理解する際の LLM の習熟度を評価するための強固な基盤として機能します。
私たちの実験は、時系列理解における最先端の LLM の長所と限界を明らかにし、これらのモデルのどの機能が効果的に容易に理解できるのか、またどこでつまづいているのかを明らかにしました。
さらに、データのフォーマット、系列内でクエリされるポイントの位置、時系列全体の長さなどの要因に対する LLM の感度も明らかにします。

要約(オリジナル)

Large Language Models (LLMs) offer the potential for automatic time series analysis and reporting, which is a critical task across many domains, spanning healthcare, finance, climate, energy, and many more. In this paper, we propose a framework for rigorously evaluating the capabilities of LLMs on time series understanding, encompassing both univariate and multivariate forms. We introduce a comprehensive taxonomy of time series features, a critical framework that delineates various characteristics inherent in time series data. Leveraging this taxonomy, we have systematically designed and synthesized a diverse dataset of time series, embodying the different outlined features. This dataset acts as a solid foundation for assessing the proficiency of LLMs in comprehending time series. Our experiments shed light on the strengths and limitations of state-of-the-art LLMs in time series understanding, revealing which features these models readily comprehend effectively and where they falter. In addition, we uncover the sensitivity of LLMs to factors including the formatting of the data, the position of points queried within a series and the overall time series length.

arxiv情報

著者 Elizabeth Fons,Rachneet Kaur,Soham Palande,Zhen Zeng,Svitlana Vyetrenko,Tucker Balch
発行日 2024-04-25 12:24:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク