Cost-aware Generalized $α$-investing for Multiple Hypothesis Testing

要約

我々は、データ収集コストが自明でない逐次多重仮説検定の問題を考える。この問題は、例えば、疾患プロセスの発現差のある遺伝子を同定するための生物学的実験を行うときに現れる。この研究は、逐次的な検定の設定で誤発見率を制御できる一般化$α$投資フレームワークを基礎とする。我々は、$alpha$-wealthの長期的な漸近挙動を理論的に分析し、$alpha$-investing決定規則におけるサンプルサイズの考察を動機付ける。検査過程を自然とのゲームに見立てて、期待$α-富報酬(ERO)を最適化し、各検査に最適なサンプルサイズを提供する決定規則を構築する。その結果、$n=1$($n$はサンプルサイズ)の場合、コストを考慮したERO決定則は他の方法よりも多くの偽帰無仮説を正しく棄却することが実証された。サンプルサイズが固定でない場合、コストを考慮したEROは帰無仮説に関する事前分布を用い、サンプル予算を適応的に各検査に割り当てる。我々は、コストを考慮したEROの投資を有限ホライズン検定に拡張し、決定規則が近視眼的でない方法でサンプルを割り当てることを可能にする。最後に、生物学的実験から得られた実際のデータセットを用いた実証実験により、コストを考慮したEROが、個々のテストへのサンプルの割り当てと、複数のテストにわたるサンプルの割り当てのバランスをとることを示す。

要約(オリジナル)

We consider the problem of sequential multiple hypothesis testing with nontrivial data collection costs. This problem appears, for example, when conducting biological experiments to identify differentially expressed genes of a disease process. This work builds on the generalized $\alpha$-investing framework which enables control of the false discovery rate in a sequential testing setting. We make a theoretical analysis of the long term asymptotic behavior of $\alpha$-wealth which motivates a consideration of sample size in the $\alpha$-investing decision rule. Posing the testing process as a game with nature, we construct a decision rule that optimizes the expected $\alpha$-wealth reward (ERO) and provides an optimal sample size for each test. Empirical results show that a cost-aware ERO decision rule correctly rejects more false null hypotheses than other methods for $n=1$ where $n$ is the sample size. When the sample size is not fixed cost-aware ERO uses a prior on the null hypothesis to adaptively allocate of the sample budget to each test. We extend cost-aware ERO investing to finite-horizon testing which enables the decision rule to allocate samples in a non-myopic manner. Finally, empirical tests on real data sets from biological experiments show that cost-aware ERO balances the allocation of samples to an individual test against the allocation of samples across multiple tests.

arxiv情報

著者 Thomas Cook,Harsh Vardhan Dubey,Ji Ah Lee,Guangyu Zhu,Tingting Zhao,Patrick Flaherty
発行日 2023-11-03 15:55:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: 62C10, 62L05, cs.LG, stat.ME パーマリンク