Improved Frequency Estimation Algorithms with and without Predictions

要約

データ ストリームに出現する要素の頻度を推定することは、大規模なデータ分析における重要なタスクです。
この問題に対する一般的なスケッチ手法 (CountMin や CountSketch など) には、考えられる入力に対する推定周波数の誤差を確率的に制限する最悪の場合の保証が付いています。
Hsu らの研究。
(2019) は、機械学習を使用して、実行されている特定のデータ分布に合わせてスケッチ アルゴリズムを調整するというアイデアを導入しました。
特に、学習拡張周波数推定アルゴリズムは、ストリーム内にどの要素が何度も出現するかを予測する、学習された強力なオラクルを使用します。
我々は、いくつかのパラメータ領域において、理論的にはすでに Hsu らの学習ベースのアルゴリズムを上回る新しいアルゴリズムを提供します。
予測を一切使用せずに。
強力なヒット予測を使用してアルゴリズムを強化することで、誤差がさらに削減され、最先端の技術が向上します。
経験的に、私たちのアルゴリズムは、以前のアプローチと比較して、すべての実験において優れたパフォーマンスを達成します。

要約(オリジナル)

Estimating frequencies of elements appearing in a data stream is a key task in large-scale data analysis. Popular sketching approaches to this problem (e.g., CountMin and CountSketch) come with worst-case guarantees that probabilistically bound the error of the estimated frequencies for any possible input. The work of Hsu et al. (2019) introduced the idea of using machine learning to tailor sketching algorithms to the specific data distribution they are being run on. In particular, their learning-augmented frequency estimation algorithm uses a learned heavy-hitter oracle which predicts which elements will appear many times in the stream. We give a novel algorithm, which in some parameter regimes, already theoretically outperforms the learning based algorithm of Hsu et al. without the use of any predictions. Augmenting our algorithm with heavy-hitter predictions further reduces the error and improves upon the state of the art. Empirically, our algorithms achieve superior performance in all experiments compared to prior approaches.

arxiv情報

著者 Anders Aamand,Justin Y. Chen,Huy Lê Nguyen,Sandeep Silwal,Ali Vakilian
発行日 2023-12-12 18:59:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG パーマリンク