Online Heavy-tailed Change-point detection

要約

ここでは、ヘビーテールの可能性があるサンプルが一度に1つずつ提示され、基本的な平均の変化を可能な限り早期に検出しなければならない。我々は、データ生成過程の第2モーメントが有界であると仮定するだけでも動作する、クリップド確率的勾配降下法(SGD)に基づくアルゴリズムを提示する。我々は、有界二次モーメントを持つ全ての分布の族に対して、最悪の場合の有限標本偽陽性率(FPR)の保証を導出する。従って、我々の手法は、データが高次元であり、基礎となる分布がヘビーテールであっても、有限サンプルFPRを保証する最初のOCPDアルゴリズムである。本論文の技術的な貢献は、clipped-SGDがランダムベクトルの平均を推定し、同時に全ての信頼値において信頼域を提供できることを示すことである。このロバストな推定と結合境界の議論を組み合わせ、有限標本のFPR保証を持つ逐次変化点アルゴリズムを構築する。本アルゴリズムが、基礎となるデータがヘビーテール、ライトテール、高次元、離散のいずれであっても、様々な状況でうまく機能することを経験的に示す。我々が同時に研究した全ての設定において、理論的にも経験的にも有界FPRを達成したアルゴリズムは他にない。

要約(オリジナル)

We study algorithms for online change-point detection (OCPD), where samples that are potentially heavy-tailed, are presented one at a time and a change in the underlying mean must be detected as early as possible. We present an algorithm based on clipped Stochastic Gradient Descent (SGD), that works even if we only assume that the second moment of the data generating process is bounded. We derive guarantees on worst-case, finite-sample false-positive rate (FPR) over the family of all distributions with bounded second moment. Thus, our method is the first OCPD algorithm that guarantees finite-sample FPR, even if the data is high dimensional and the underlying distributions are heavy-tailed. The technical contribution of our paper is to show that clipped-SGD can estimate the mean of a random vector and simultaneously provide confidence bounds at all confidence values. We combine this robust estimate with a union bound argument and construct a sequential change-point algorithm with finite-sample FPR guarantees. We show empirically that our algorithm works well in a variety of situations, whether the underlying data are heavy-tailed, light-tailed, high dimensional or discrete. No other algorithm achieves bounded FPR theoretically or empirically, over all settings we study simultaneously.

arxiv情報

著者 Abishek Sankararaman,Balakrishnan,Narayanaswamy
発行日 2023-07-03 17:56:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク