Learning sparse generalized linear models with binary outcomes via iterative hard thresholding

要約

統計では、一般化された線形モデル(GLM)がデータのモデリングに広く使用されており、モデルの共変量に対するモデルの結果の潜在的な非線形依存性を表現的にキャプチャできます。
GLMSの広範なファミリー内では、ロジスティックおよびプロビットの回帰を含むバイナリ結果を持つ人々は、(おそらく)分離不可能なデータを使用したバイナリ分類などの一般的なタスクによって動機付けられています。
さらに、現代の機械学習と統計では、データはしばしば高次元的であるが、本質的な次元が低いため、モデルのスパース性の制約は別の合理的な考慮事項をもたらします。
この作業では、バイナリGLMのパラメーター推定のために、バイナリイテラティブハードしきい値(BIHT)と呼ばれる、反復的なハードしきい値(Relu損失の投影勾配降下)アルゴリズムを使用および分析することを提案します。
BIHTは統計的に効率的であり、スパースバイナリGLMの一般的なクラスでパラメーター推定のために正しいソリューションに収束することを確立します。
GLMを学習する他の多くの方法とは異なり、最尤推定、一般化の近似メッセージパス、およびGLM-Tron(Kakade etal。2011; Bahmani etal。2016)を含む、BIHTはGLMのリンク関数の知識を必要としません。
アルゴリズムが任意のバイナリGLMを学習できるようにする一般性。
2つのアプリケーションとして、ロジスティックとプロビットの回帰がさらに研究されています。
この点で、ロジスティック回帰では、アルゴリズムは実際には、順序ごとのサンプルの複雑さが(対数因子まで)以前に得られた下限が一致するという意味で統計的に最適であることが示されています。
私たちの知る限り、これは、計算効率の高いアルゴリズムを備えたすべてのノイズレジームでロジスティック回帰の統計的最適性を達成する最初の作業です。
さらに、プロビット回帰の場合、サンプルの複雑さは、ロジスティック回帰のために得られたものと同じ順序にあります。

要約(オリジナル)

In statistics, generalized linear models (GLMs) are widely used for modeling data and can expressively capture potential nonlinear dependence of the model’s outcomes on its covariates. Within the broad family of GLMs, those with binary outcomes, which include logistic and probit regressions, are motivated by common tasks such as binary classification with (possibly) non-separable data. In addition, in modern machine learning and statistics, data is often high-dimensional yet has a low intrinsic dimension, making sparsity constraints in models another reasonable consideration. In this work, we propose to use and analyze an iterative hard thresholding (projected gradient descent on the ReLU loss) algorithm, called binary iterative hard thresholding (BIHT), for parameter estimation in sparse GLMs with binary outcomes. We establish that BIHT is statistically efficient and converges to the correct solution for parameter estimation in a general class of sparse binary GLMs. Unlike many other methods for learning GLMs, including maximum likelihood estimation, generalized approximate message passing, and GLM-tron (Kakade et al. 2011; Bahmani et al. 2016), BIHT does not require knowledge of the GLM’s link function, offering flexibility and generality in allowing the algorithm to learn arbitrary binary GLMs. As two applications, logistic and probit regression are additionally studied. In this regard, it is shown that in logistic regression, the algorithm is in fact statistically optimal in the sense that the order-wise sample complexity matches (up to logarithmic factors) the lower bound obtained previously. To the best of our knowledge, this is the first work achieving statistical optimality for logistic regression in all noise regimes with a computationally efficient algorithm. Moreover, for probit regression, our sample complexity is on the same order as that obtained for logistic regression.

arxiv情報

著者 Namiko Matsumoto,Arya Mazumdar
発行日 2025-02-25 17:42:33+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク