Sequential Kernelized Independence Testing

要約

独立性テストは、データを収集する前にサンプル サイズを固定するバッチ設定で広範囲に研究されてきた古典的な統計問題です。
ただし、実務家は、サンプルサイズを事前に設定するのではなく、当面の問題の複雑さに適応する手順を好むことがよくあります。
理想的には、そのような手順は、(a) 簡単なタスクを早期に停止して (その後、より困難なタスクを) 実行して、利用可能なリソースをより有効に活用し、(b) データを継続的に監視し、新しいデータの収集後に統計的証拠を効率的に組み込む必要があります。
誤警報率。
従来のバッチ テストは、ストリーミング データ用に調整されていません。データ ピーク後の有効な推論には、複数のテストの修正が必要であり、結果的に電力が低くなります。
賭けによるテストの原則に従って、このような欠点を克服する逐次的なカーネル化された独立性テストを設計します。
ヒルベルト・シュミット独立基準など、カーネル化された依存性尺度に触発された賭けを使用して、広範なフレームワークを例示します。
私たちのテストは、非i.i.d.の時間変化する設定でも有効です。
私たちは、シミュレートされたデータと実際のデータの両方で私たちのアプローチの威力を実証します。

要約(オリジナル)

Independence testing is a classical statistical problem that has been extensively studied in the batch setting when one fixes the sample size before collecting data. However, practitioners often prefer procedures that adapt to the complexity of a problem at hand instead of setting sample size in advance. Ideally, such procedures should (a) stop earlier on easy tasks (and later on harder tasks), hence making better use of available resources, and (b) continuously monitor the data and efficiently incorporate statistical evidence after collecting new data, while controlling the false alarm rate. Classical batch tests are not tailored for streaming data: valid inference after data peeking requires correcting for multiple testing which results in low power. Following the principle of testing by betting, we design sequential kernelized independence tests that overcome such shortcomings. We exemplify our broad framework using bets inspired by kernelized dependence measures, e.g., the Hilbert-Schmidt independence criterion. Our test is also valid under non-i.i.d., time-varying settings. We demonstrate the power of our approaches on both simulated and real data.

arxiv情報

著者 Aleksandr Podkopaev,Patrick Blöbaum,Shiva Prasad Kasiviswanathan,Aaditya Ramdas
発行日 2023-07-19 17:56:01+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク