Variance Norms for Kernelized Anomaly Detection


非ガウス測度に適用された Cameron-Martin 理論のアイデアを使用して、バナッハ空間におけるマハラノビス型の異常検出のための統一理論を提示します。
私たちのフレームワークは、古典的な $\mathbb{R}^d$、関数 $(L^2[0,1])^d$、および非単射共分散演算子の一般的なケースを含むカーネル化設定を一般化します。
分散ノルムは与えられたヒルベルト空間の内積のみに依存するため、カーネル化されたマハラノビス距離はカーネル ヒルベルト空間の再現に取り組むことで自然に回復できることを証明します。
12 の実世界のデータセットに関する実証研究では、シグネチャなどの最先端の時系列カーネルを使用して、カーネル化された最近傍マハラノビス距離が、多変量時系列異常検出において従来のカーネル化されたマハラノビス距離よりも優れていることを実証しました。
グローバル アラインメント、および Volterra リザーバー カーネル。


We present a unified theory for Mahalanobis-type anomaly detection on Banach spaces, using ideas from Cameron-Martin theory applied to non-Gaussian measures. This approach leads to a basis-free, data-driven notion of anomaly distance through the so-called variance norm of a probability measure, which can be consistently estimated using empirical measures. Our framework generalizes the classical $\mathbb{R}^d$, functional $(L^2[0,1])^d$, and kernelized settings, including the general case of non-injective covariance operator. We prove that the variance norm depends solely on the inner product in a given Hilbert space, and hence that the kernelized Mahalanobis distance can naturally be recovered by working on reproducing kernel Hilbert spaces. Using the variance norm, we introduce the notion of a kernelized nearest-neighbour Mahalanobis distance for semi-supervised anomaly detection. In an empirical study on 12 real-world datasets, we demonstrate that the kernelized nearest-neighbour Mahalanobis distance outperforms the traditional kernelized Mahalanobis distance for multivariate time series anomaly detection, using state-of-the-art time series kernels such as the signature, global alignment, and Volterra reservoir kernels. Moreover, we provide an initial theoretical justification of nearest-neighbour Mahalanobis distances by developing concentration inequalities in the finite-dimensional Gaussian case.


著者 Thomas Cass,Lukas Gonon,Nikita Zozoulenko
発行日 2024-07-16 15:59:49+00:00
カテゴリー: cs.LG, math.PR, stat.ML パーマリンク