A Consistent and Scalable Algorithm for Best Subset Selection in Single Index Models


高次元データの分析により、単一インデックス モデル (SIM) と最適なサブセットの選択の両方に対する関心が高まっています。
SIM は、高次元データに対して解釈可能で柔軟なモデリング フレームワークを提供します。一方、最適なサブセットの選択は、大規模な予測子のセットから疎なモデルを見つけることを目的としています。
既存の方法は選択を緩和する傾向がありますが、最適なサブセット ソリューションは得られません。
この論文では、高次元 SIM で最適なサブセットを選択するための、証明可能でスケーラブルなアルゴリズムを初めて提案することで、この難解さに直接取り組みます。
このアルゴリズムは、回帰係数のサポート サイズを決定するための一般化された情報基準を備えており、モデル選択の調整が不要になります。


Analysis of high-dimensional data has led to increased interest in both single index models (SIMs) and best subset selection. SIMs provide an interpretable and flexible modeling framework for high-dimensional data, while best subset selection aims to find a sparse model from a large set of predictors. However, best subset selection in high-dimensional models is known to be computationally intractable. Existing methods tend to relax the selection, but do not yield the best subset solution. In this paper, we directly tackle the intractability by proposing the first provably scalable algorithm for best subset selection in high-dimensional SIMs. Our algorithmic solution enjoys the subset selection consistency and has the oracle property with a high probability. The algorithm comprises a generalized information criterion to determine the support size of the regression coefficients, eliminating the model selection tuning. Moreover, our method does not assume an error distribution or a specific link function and hence is flexible to apply. Extensive simulation results demonstrate that our method is not only computationally efficient but also able to exactly recover the best subset in various settings (e.g., linear regression, Poisson regression, heteroscedastic models).


著者 Borui Tang,Jin Zhu,Junxian Zhu,Xueqin Wang,Heping Zhang
発行日 2023-09-12 13:48:06+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML パーマリンク