DeepDRK: Deep Dependency Regularized Knockoff for Feature Selection

要約

Model-X の模造品は、誤検出率 (FDR) の制御が保証されているため、さまざまな特徴選択方法の中で大きな注目を集めています。
パラメトリック設計に導入されて以来、模造技術は、深層学習ベースの生成モデルを使用して任意のデータ分布を処理するために進化してきました。
ただし、ディープ Model-X 模倣フレームワークの現在の実装には制限があることがわかりました。
特に、模造品に必要な「交換特性」は、サンプルレベルで課題に直面することが多く、その結果、選択力が低下します。
これらの問題に対処するために、FDR と電力のバランスを効果的に調整するディストリビューションフリーの深層学習手法である「Deep dependency Regularized Knockoff (DeepDRK)」を開発しました。
DeepDRK では、マルチソース敵対的攻撃の下での学習問題として、模倣モデルの新しい定式化を導入します。
革新的な摂動技術を採用することで、より低い FDR とより高い出力を実現します。
私たちのモデルは、特にサンプルサイズが小さく、データ分布が非ガウス分布である場合、合成、半合成、実世界のデータセットにわたって既存のベンチマークよりも優れたパフォーマンスを発揮します。

要約(オリジナル)

Model-X knockoff has garnered significant attention among various feature selection methods due to its guarantees for controlling the false discovery rate (FDR). Since its introduction in parametric design, knockoff techniques have evolved to handle arbitrary data distributions using deep learning-based generative models. However, we have observed limitations in the current implementations of the deep Model-X knockoff framework. Notably, the ‘swap property’ that knockoffs require often faces challenges at the sample level, resulting in diminished selection power. To address these issues, we develop ‘Deep Dependency Regularized Knockoff (DeepDRK),’ a distribution-free deep learning method that effectively balances FDR and power. In DeepDRK, we introduce a novel formulation of the knockoff model as a learning problem under multi-source adversarial attacks. By employing an innovative perturbation technique, we achieve lower FDR and higher power. Our model outperforms existing benchmarks across synthetic, semi-synthetic, and real-world datasets, particularly when sample sizes are small and data distributions are non-Gaussian.

arxiv情報

著者 Hongyu Shen,Yici Yan,Zhizhen Zhao
発行日 2024-11-08 16:09:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 68T07, cs.LG, I.5.1 パーマリンク