Subsampling Suffices for Adaptive Data Analysis

要約

データセットに対して実行される分析が母集団全体を代表していることを確認することは、統計における中心的な問題の 1 つです。
ほとんどの古典的な手法は、データセットがアナリストのクエリから独立していることを前提としており、適応的に選択された複数のクエリに対してデータセットが再利用されるという共通の設定に当てはまります。
\emph{適応データ分析} のこの問題は、Dwork らの独創的な研究で形式化されました。
(STOC、2015)およびハートとウルマン(FOCS、2014)。
私たちは、適応的に選択された場合でもクエリが代表的なものであり続ける、非常に単純な一連の仮定を特定します。唯一の要件は、各クエリが入力としてランダムなサブサンプルを受け取り、数ビットを出力することです。
この結果は、サブサンプリングに固有のノイズがクエリ応答の一般化を保証するのに十分であることを示しています。
このサブサンプリング ベースのフレームワークはシンプルであるため、これまでの研究ではカバーされていなかったさまざまな現実世界のシナリオをモデル化できます。
そのシンプルさに加えて、統計クエリと中央値検出という 2 つの基本的なタスクのメカニズムを設計することによって、このフレームワークの有用性を実証します。
特に、広く適用可能なクラスの統計クエリに答えるためのメカニズムは、非常にシンプルであり、多くのパラメータ領域において最先端のものです。

要約(オリジナル)

Ensuring that analyses performed on a dataset are representative of the entire population is one of the central problems in statistics. Most classical techniques assume that the dataset is independent of the analyst’s query and break down in the common setting where a dataset is reused for multiple, adaptively chosen, queries. This problem of \emph{adaptive data analysis} was formalized in the seminal works of Dwork et al. (STOC, 2015) and Hardt and Ullman (FOCS, 2014). We identify a remarkably simple set of assumptions under which the queries will continue to be representative even when chosen adaptively: The only requirements are that each query takes as input a random subsample and outputs few bits. This result shows that the noise inherent in subsampling is sufficient to guarantee that query responses generalize. The simplicity of this subsampling-based framework allows it to model a variety of real-world scenarios not covered by prior work. In addition to its simplicity, we demonstrate the utility of this framework by designing mechanisms for two foundational tasks, statistical queries and median finding. In particular, our mechanism for answering the broadly applicable class of statistical queries is both extremely simple and state of the art in many parameter regimes.

arxiv情報

著者 Guy Blanc
発行日 2024-09-24 14:42:58+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT パーマリンク