Large language models can be zero-shot anomaly detectors for time series?

要約

最近の研究では、大規模な言語モデルが時系列予測を含むさまざまなタスクを実行できることが示されています。
これらのモデルは柔軟な性質を持っているため、多くのアプリケーションに使用できます。
この論文では、時系列異常検出という困難なタスクに使用される大規模言語モデルに関する新しい研究を紹介します。
この問題には、LLM にとって新しい 2 つの側面が伴います。それは、モデルが入力シーケンスの一部 (または複数の部分) を異常であると識別する必要があることです。
そして、従来のテキスト入力ではなく、時系列データを処理する必要性があります。
大規模な言語モデルを使用した時系列異常検出のフレームワークである sigllm を紹介します。
私たちのフレームワークには、時系列からテキストへの変換モジュールと、言語モデルに時系列異常検出の実行を促すエンドツーエンドのパイプラインが含まれています。
私たちは、大規模な言語モデルが検出タスクを実行する能力をテストするための 2 つのパラダイムを調査します。
まず、入力のどの要素が異常であるかを言語モデルに直接要求する、プロンプトベースの検出方法を紹介します。
2 番目に、大規模な言語モデルの予測機能を活用して、異常検出プロセスをガイドします。
私たちは、さまざまなソースと 10 のパイプラインにわたる 11 のデータセットでフレームワークを評価しました。
F1 スコアに関して、11 のデータセットすべてにおいて、予測方法がプロンプト方法よりも大幅に優れていることを示します。
さらに、大規模な言語モデルは異常を見つけることができますが、最先端の深層学習モデルは依然としてパフォーマンスに優れており、大規模な言語モデルよりも 30% 優れた結果を達成します。

要約(オリジナル)

Recent studies have shown the ability of large language models to perform a variety of tasks, including time series forecasting. The flexible nature of these models allows them to be used for many applications. In this paper, we present a novel study of large language models used for the challenging task of time series anomaly detection. This problem entails two aspects novel for LLMs: the need for the model to identify part of the input sequence (or multiple parts) as anomalous; and the need for it to work with time series data rather than the traditional text input. We introduce sigllm, a framework for time series anomaly detection using large language models. Our framework includes a time-series-to-text conversion module, as well as end-to-end pipelines that prompt language models to perform time series anomaly detection. We investigate two paradigms for testing the abilities of large language models to perform the detection task. First, we present a prompt-based detection method that directly asks a language model to indicate which elements of the input are anomalies. Second, we leverage the forecasting capability of a large language model to guide the anomaly detection process. We evaluated our framework on 11 datasets spanning various sources and 10 pipelines. We show that the forecasting method significantly outperformed the prompting method in all 11 datasets with respect to the F1 score. Moreover, while large language models are capable of finding anomalies, state-of-the-art deep learning models are still superior in performance, achieving results 30% better than large language models.

arxiv情報

著者 Sarah Alnegheimish,Linh Nguyen,Laure Berti-Equille,Kalyan Veeramachaneni
発行日 2024-05-23 16:21:57+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク