要約
時系列は科学全般にわたって測定・分析されている。時系列の構造を定量化する1つの方法は、要約統計量または「特徴量」のセットを計算し、時系列を特徴ベクトルとして表現することである。結果として得られる特徴空間は解釈可能で有益であり、クラスタリング、回帰、分類を含む従来の統計的学習アプローチを時系列データセットに適用することを可能にする。時系列特徴のセットを計算するための多くのオープンソースソフトウェアパッケージは、catch22(22特徴:Matlab、R、Python、Julia)、feasts(42特徴:R)、tsfeatures(63特徴:R)、Kats(40特徴:Python)、tsfresh(779特徴:Python)、TSFEL(390特徴:Python)など、複数のプログラミング言語にわたって存在する。(iii)これらの特徴抽出パッケージには、時系列分類への応用など、特徴に基づく時系列分析を実行するための広範な方法論的パイプラインが付随していない。ここでは、これらの問題を解決するためのRソフトウェアパッケージである theft を紹介する:theft は、上記の6つのオープンソースの時系列特徴セットから特徴量を計算するための、統一的で拡張可能なフレームワークです。また、広範なデータ可視化テンプレート、低次元投影、時系列分類操作など、抽出された特徴の処理と性能解釈のための関数群も含まれています。科学界や産業界において時系列データセットの量と複雑さが増す中、Softは時系列の情報構造を包括的に定量化し解釈するための標準化されたフレームワークを提供します。
要約(オリジナル)
Time series are measured and analyzed across the sciences. One method of quantifying the structure of time series is by calculating a set of summary statistics or `features’, and then representing a time series in terms of its properties as a feature vector. The resulting feature space is interpretable and informative, and enables conventional statistical learning approaches, including clustering, regression, and classification, to be applied to time-series datasets. Many open-source software packages for computing sets of time-series features exist across multiple programming languages, including catch22 (22 features: Matlab, R, Python, Julia), feasts (42 features: R), tsfeatures (63 features: R), Kats (40 features: Python), tsfresh (779 features: Python), and TSFEL (390 features: Python). However, there are several issues: (i) a singular access point to these packages is not currently available; (ii) to access all feature sets, users must be fluent in multiple languages; and (iii) these feature-extraction packages lack extensive accompanying methodological pipelines for performing feature-based time-series analysis, such as applications to time-series classification. Here we introduce a solution to these issues in an R software package called theft: Tools for Handling Extraction of Features from Time series. theft is a unified and extendable framework for computing features from the six open-source time-series feature sets listed above. It also includes a suite of functions for processing and interpreting the performance of extracted features, including extensive data-visualization templates, low-dimensional projections, and time-series classification operations. With an increasing volume and complexity of time-series datasets in the sciences and industry, theft provides a standardized framework for comprehensively quantifying and interpreting informative structure in time series.
arxiv情報
著者 | Trent Henderson,Ben D. Fulcher |
発行日 | 2023-07-03 09:02:40+00:00 |
arxivサイト | arxiv_id(pdf) |