Real-Time Device Reach Forecasting Using HLL and MinHash Data Sketches

要約

ユーザーが指定したターゲティング属性に基づいて、適切な数のテレビ(デバイスリーチ)をリアルタイムで予測することは、数百万ドルの広告ビジネスを実行するために不可欠です。
複数のターゲティングディメンションにわたって数十億のレコードに参加するためのSQLクエリの従来のアプローチは非常に遅いです。
回避策として、多くのアプリケーションには、これらの数値を計算し、何時間も後に結果を提示するオフラインプロセスがあります。
私たちの場合、解決策はオフラインプロセスで、24時間かかり、顧客に搭載され、潜在的なビジネスの損失が発生しました。
この問題を解決するために、MinhashとHyperLoglog(HLL)データスケッチを使用して新しいリアルタイム予測システムを構築して、ユーザーがリクエストを行う実行時にデバイスリーチを計算しました。
ただし、既存のMinhashの実装では、マルチレベルの集約と交差点の複雑な問題を解決しません。
この作業では、この問題をどのように解決したかを示します。さらに、単一命令マルチデータ(SIMD)ベクトル化された操作を使用して、数十億のレコードを処理するための一定のスペースで高速と精度を使用して、Minhashアルゴリズムを4倍高速に実行するように改善されました。
最後に、実験により、結果が5%の許容可能なエラー率を持つ従来のオフライン予測システムと同じくらい正確であることを証明します。

要約(オリジナル)

Predicting the right number of TVs (Device Reach) in real-time based on a user-specified targeting attributes is imperative for running multi-million dollar ADs business. The traditional approach of SQL queries to join billions of records across multiple targeting dimensions is extremely slow. As a workaround, many applications will have an offline process to crunch these numbers and present the results after many hours. In our case, the solution was an offline process taking 24 hours to onboard a customer resulting in a potential loss of business. To solve this problem, we have built a new real-time prediction system using MinHash and HyperLogLog (HLL) data sketches to compute the device reach at runtime when a user makes a request. However, existing MinHash implementations do not solve the complex problem of multilevel aggregation and intersection. This work will show how we have solved this problem, in addition, we have improved MinHash algorithm to run 4 times faster using Single Instruction Multiple Data (SIMD) vectorized operations for high speed and accuracy with constant space to process billions of records. Finally, by experiments, we prove that the results are as accurate as traditional offline prediction system with an acceptable error rate of 5%.

arxiv情報

著者 Chandrashekar Muniyappa,Kendall Willets,Sriraman Krishnamoorthy
発行日 2025-02-20 18:05:34+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 60G25, cs.AI, cs.DB, cs.LG, I.5.3 パーマリンク