要約
1NN-DTW アルゴリズムから ROCKET ファミリの分類器に至るまで、最先端の時系列分類は長い道のりを歩んできました。
ただし、現在のペースが速い新しい分類器の開発では、一歩下がって簡単なベースライン チェックを実行することが不可欠です。
研究者は新しい最先端の結果を確立し、スケーラブルなアルゴリズムを開発し、モデルを説明可能にすることに重点を置いているため、これらのチェックは見落とされがちです。
それでも、一見すると時系列のように見えるデータセットは数多くありますが、このような問題では、時間順序を持たない表形式の手法などの古典的なアルゴリズムの方が優れたパフォーマンスを発揮する可能性があります。
たとえば、分光データセットの場合、表形式の手法は最近の時系列手法よりも大幅に優れたパフォーマンスを発揮する傾向があります。
この研究では、古典的な機械学習アプローチ (Ridge、LDA、RandomForest など) と分類器の ROCKET ファミリ (Rocket、MiniRocket、MultiRocket など) を使用した表形式モデルのパフォーマンスを比較します。
表形式モデルはシンプルで非常に効率的ですが、ROCKET ファミリの分類子はより複雑で、最近の時系列分類子の中で最先端の精度と効率を備えています。
UCR/UEA ベンチマークでは、表形式モデルが単変量データセットの約 19%、多変量データセットの約 28% で ROCKET ファミリの分類子よりも優れており、データセットの約 50% で 10 パーセント ポイント以内の精度を達成していることがわかりました。
私たちの結果は、時系列分類器を開発する際には、単純な表形式モデルをベースラインとして考慮することが重要であることを示唆しています。
これらのモデルは非常に高速で、より複雑な方法と同じくらい効果的であり、理解と導入が容易である可能性があります。
要約(オリジナル)
The state-of-the-art in time series classification has come a long way, from the 1NN-DTW algorithm to the ROCKET family of classifiers. However, in the current fast-paced development of new classifiers, taking a step back and performing simple baseline checks is essential. These checks are often overlooked, as researchers are focused on establishing new state-of-the-art results, developing scalable algorithms, and making models explainable. Nevertheless, there are many datasets that look like time series at first glance, but classic algorithms such as tabular methods with no time ordering may perform better on such problems. For example, for spectroscopy datasets, tabular methods tend to significantly outperform recent time series methods. In this study, we compare the performance of tabular models using classic machine learning approaches (e.g., Ridge, LDA, RandomForest) with the ROCKET family of classifiers (e.g., Rocket, MiniRocket, MultiRocket). Tabular models are simple and very efficient, while the ROCKET family of classifiers are more complex and have state-of-the-art accuracy and efficiency among recent time series classifiers. We find that tabular models outperform the ROCKET family of classifiers on approximately 19% of univariate and 28% of multivariate datasets in the UCR/UEA benchmark and achieve accuracy within 10 percentage points on about 50% of datasets. Our results suggest that it is important to consider simple tabular models as baselines when developing time series classifiers. These models are very fast, can be as effective as more complex methods and may be easier to understand and deploy.
arxiv情報
著者 | Bhaskar Dhariyal,Thach Le Nguyen,Georgiana Ifrim |
発行日 | 2023-08-15 17:23:18+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google