A Consistent and Scalable Algorithm for Best Subset Selection in Single Index Models

要約

高次元データの分析により、単一インデックス モデル (SIM) と最適なサブセットの選択の両方に対する関心が高まっています。
SIM は、高次元データに対して解釈可能で柔軟なモデリング フレームワークを提供します。一方、最適なサブセットの選択は、大規模な予測子のセットから疎なモデルを見つけることを目的としています。
ただし、高次元モデルでの最適なサブセットの選択は、計算的に処理が困難であることが知られています。
既存の方法は選択を緩和する傾向がありますが、最適なサブセット ソリューションは得られません。
この論文では、高次元 SIM で最適なサブセットを選択するための、証明可能でスケーラブルなアルゴリズムを初めて提案することで、この難解さに直接取り組みます。
私たちのアルゴリズムソリューションはサブセット選択の一貫性を享受し、高い確率でオラクル特性を備えています。
このアルゴリズムは、回帰係数のサポート サイズを決定するための一般化された情報基準を備えており、モデル選択の調整が不要になります。
さらに、私たちの方法は誤差の分布や特定のリンク関数を想定していないため、柔軟に適用できます。
広範なシミュレーション結果は、私たちの方法が計算的に効率的であるだけでなく、さまざまな設定(線形回帰、ポアソン回帰、不均一分散モデルなど)で最適なサブセットを正確に回復できることを示しています。

要約(オリジナル)

Analysis of high-dimensional data has led to increased interest in both single index models (SIMs) and best subset selection. SIMs provide an interpretable and flexible modeling framework for high-dimensional data, while best subset selection aims to find a sparse model from a large set of predictors. However, best subset selection in high-dimensional models is known to be computationally intractable. Existing methods tend to relax the selection, but do not yield the best subset solution. In this paper, we directly tackle the intractability by proposing the first provably scalable algorithm for best subset selection in high-dimensional SIMs. Our algorithmic solution enjoys the subset selection consistency and has the oracle property with a high probability. The algorithm comprises a generalized information criterion to determine the support size of the regression coefficients, eliminating the model selection tuning. Moreover, our method does not assume an error distribution or a specific link function and hence is flexible to apply. Extensive simulation results demonstrate that our method is not only computationally efficient but also able to exactly recover the best subset in various settings (e.g., linear regression, Poisson regression, heteroscedastic models).

arxiv情報

著者 Borui Tang,Jin Zhu,Junxian Zhu,Xueqin Wang,Heping Zhang
発行日 2023-09-12 13:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML パーマリンク