Point Prediction for Streaming Data

要約

ストリーミングデータを用いた点予測のための2つの新しいアプローチを紹介する。一つはカウント・ミン・スケッチ(CMS)に基づくものであり、もう一つはランダムなバイアスを持つガウス過程プリオールに基づくものである。これらの方法は、データストリームに対して真のモデルが有用に定式化できないような、最も一般的な予測問題を対象としている。統計的な文脈では、これはしばしば$mathcal{M}$-open problem classと呼ばれる。データが固定分布関数$F$からのi.i.d標本からなるという仮定の下で、CMSに基づく分布関数の推定が矛盾しないことを示す。 累積$L^1$誤差の観点から、我々の新しい方法を2つの確立された予測器と比較する。一つは正規専門家の設定におけるシュタルコフ解(しばしば正規化最尤法と呼ばれる)に基づくものであり、もう一つはディリクレ過程事前分布に基づくものである。これらの比較は2つのケースについてです。1つ目は,予測変数の更新が,CMSがスケッチであるという事実を用いて行われることを意味するワンパスである.ワンパスでない予測変数については、データの蓄積に応じて更新できる固定サイズの代表的な部分集合を与えるために、ストリーミング$K$平均を用いる。 予備的な計算の結果、十分に複雑なデータでは、CMS法の1パス中央値版が他の手法に勝ることはほとんどないことが示唆される。我々はまた、ランダムなバイアスを持つガウス過程事前分布に基づく予測変数がよく機能することも発見した。我々がここで使用するShtarkov予測変数は,おそらく最も単純な例しか使用していなかったので,あまり良い結果を出さなかった.他の予測変数は,主にデータがM-openデータ・ジェネレータから来たように見えないときに,よく機能するようである.

要約(オリジナル)

We present two new approaches for point prediction with streaming data. One is based on the Count-Min sketch (CMS) and the other is based on Gaussian process priors with a random bias. These methods are intended for the most general predictive problems where no true model can be usefully formulated for the data stream. In statistical contexts, this is often called the $\mathcal{M}$-open problem class. Under the assumption that the data consists of i.i.d samples from a fixed distribution function $F$, we show that the CMS-based estimates of the distribution function are consistent. We compare our new methods with two established predictors in terms of cumulative $L^1$ error. One is based on the Shtarkov solution (often called the normalized maximum likelihood) in the normal experts setting and the other is based on Dirichlet process priors. These comparisons are for two cases. The first is one-pass meaning that the updating of the predictors is done using the fact that the CMS is a sketch. For predictors that are not one-pass, we use streaming $K$-means to give a representative subset of fixed size that can be updated as data accumulate. Preliminary computational work suggests that the one-pass median version of the CMS method is rarely outperformed by the other methods for sufficiently complex data. We also find that predictors based on Gaussian process priors with random biases perform well. The Shtarkov predictors we use here did not perform as well probably because we were only using the simplest example. The other predictors seemed to perform well mainly when the data did not look like they came from an M-open data generator.

arxiv情報

著者 Aleena Chanda,N. V. Vinodchandran,Bertrand Clarke
発行日 2024-08-02 15:12:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 35A01, 65L10, 65L12, 65L20, 65L70, cs.LG, stat.ML パーマリンク