要約
条件付き独立性の統計的テストに対する、データ効率の高いカーネルベースのアプローチについて説明します。
条件付き独立性テストの主な課題は、無条件独立性テストには存在しませんが、競争力のあるテスト検出力を達成しながら、正しいテスト レベル (偽陽性率の指定された上限) を取得することです。
過剰な偽陽性は、ノンパラメトリック カーネル リッジ回帰を使用して取得される検定統計量の偏りによって発生します。
データ分割、補助データ、および (可能な場合は) より単純な関数クラスに基づいて、テスト レベルを修正するためのバイアス制御の 3 つの方法を提案します。
これらの組み合わせた戦略が合成データと現実世界のデータの両方に対して効果的であることを示します。
要約(オリジナル)
We describe a data-efficient, kernel-based approach to statistical testing of conditional independence. A major challenge of conditional independence testing, absent in tests of unconditional independence, is to obtain the correct test level (the specified upper bound on the rate of false positives), while still attaining competitive test power. Excess false positives arise due to bias in the test statistic, which is obtained using nonparametric kernel ridge regression. We propose three methods for bias control to correct the test level, based on data splitting, auxiliary data, and (where possible) simpler function classes. We show these combined strategies are effective both for synthetic and real-world data.
arxiv情報
著者 | Roman Pogodin,Antonin Schrab,Yazhe Li,Danica J. Sutherland,Arthur Gretton |
発行日 | 2024-02-20 18:07:59+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google