Online Robust Mean Estimation


具体的には、$n$ センサーが何らかの一般的な進行中の現象を測定しているシナリオを考えます。
各タイム ステップ $t=1,2,\ldots,T$ で、$i^{th}$ センサーはそのタイム ステップの読み取り値 $x^{(i)}_t$ を報告します。
次にアルゴリズムは、時刻 $t$ におけるプロセスの真の平均値の推定値 $\mu_t$ をコミットする必要があります。
ほとんどのセンサーは、ある共通の分布 $X$ からの独立したサンプルを観察していると仮定しますが、そのうちの $\epsilon$ の一部が悪意のある動作をする可能性があります。
アルゴリズムは、真の平均 $\mu^\ast := \mathbf{E}[X]$ に対する適切な近似 $\mu$ を計算したいと考えています。
アルゴリズムが推定値を報告するために時間 $T$ まで待機できる場合、これはロバスト平均推定というよく研究された問題に帰着することに注意してください。
このモデルにおけるオンラインのロバストな平均推定に関する 2 つの主な結果を証明します。
まず、破損していないサンプルが $(\epsilon,\delta)$-安定性の標準条件を満たしている場合、高い
$\|\mu-\mu^\ast\|_2 = O(\delta \log(T))$ が成り立つ確率、ただし $\mu = (\mu_t)_{t \in [T]}$

この誤差限界は、$\ell_2$-error の $O(\delta)$ を達成する最良のオフライン アルゴリズムとほぼ競合することに注意してください。
2 番目の主な結果は、入力に追加の仮定 (最も注目すべきは $X$ が積分布であること) を使用すると、誤差が $T$ にまったく依存しない非効率なアルゴリズムが存在することを示しています。


We study the problem of high-dimensional robust mean estimation in an online setting. Specifically, we consider a scenario where $n$ sensors are measuring some common, ongoing phenomenon. At each time step $t=1,2,\ldots,T$, the $i^{th}$ sensor reports its readings $x^{(i)}_t$ for that time step. The algorithm must then commit to its estimate $\mu_t$ for the true mean value of the process at time $t$. We assume that most of the sensors observe independent samples from some common distribution $X$, but an $\epsilon$-fraction of them may instead behave maliciously. The algorithm wishes to compute a good approximation $\mu$ to the true mean $\mu^\ast := \mathbf{E}[X]$. We note that if the algorithm is allowed to wait until time $T$ to report its estimate, this reduces to the well-studied problem of robust mean estimation. However, the requirement that our algorithm produces partial estimates as the data is coming in substantially complicates the situation. We prove two main results about online robust mean estimation in this model. First, if the uncorrupted samples satisfy the standard condition of $(\epsilon,\delta)$-stability, we give an efficient online algorithm that outputs estimates $\mu_t$, $t \in [T],$ such that with high probability it holds that $\|\mu-\mu^\ast\|_2 = O(\delta \log(T))$, where $\mu = (\mu_t)_{t \in [T]}$. We note that this error bound is nearly competitive with the best offline algorithms, which would achieve $\ell_2$-error of $O(\delta)$. Our second main result shows that with additional assumptions on the input (most notably that $X$ is a product distribution) there are inefficient algorithms whose error does not depend on $T$ at all.


著者 Daniel M. Kane,Ilias Diakonikolas,Hanshen Xiao,Sihan Liu
発行日 2023-10-24 15:28:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG パーマリンク