A Provably Accurate Randomized Sampling Algorithm for Logistic Regression

要約

統計と機械学習では、ロジスティック回帰は、主にバイナリ分類タスクに使用される教師あり学習手法として広く使用されています。
観測値の数が予測変数の数を大幅に超える場合、推定確率とモデル全体の不一致の両方に対する高品質の近似を保証する、ロジスティック回帰問題用の単純なランダム化サンプリング ベースのアルゴリズムを提示します。
私たちの分析は、ランダム化数値線形代数の基本的でよく理解されているプリミティブであるランダム化行列乗算に要約される 2 つの単純な構造条件に基づいて構築されています。
観測値のサンプリングにレバレッジスコアを使用した場合のロジスティック回帰の推定確率の特性を分析し、観測値の総数よりもはるかに小さいサイズのサンプルを使用して正確な近似が達成できることを証明します。
理論的発見をさらに検証するために、包括的な実証的評価を実施します。
全体として、私たちの研究は、ランダム化サンプリング手法を使用してロジスティック回帰の推定確率を効率的に近似する可能性を明らかにし、大規模なデータセットに対して実用的で計算効率の高いソリューションを提供します。

要約(オリジナル)

In statistics and machine learning, logistic regression is a widely-used supervised learning technique primarily employed for binary classification tasks. When the number of observations greatly exceeds the number of predictor variables, we present a simple, randomized sampling-based algorithm for logistic regression problem that guarantees high-quality approximations to both the estimated probabilities and the overall discrepancy of the model. Our analysis builds upon two simple structural conditions that boil down to randomized matrix multiplication, a fundamental and well-understood primitive of randomized numerical linear algebra. We analyze the properties of estimated probabilities of logistic regression when leverage scores are used to sample observations, and prove that accurate approximations can be achieved with a sample whose size is much smaller than the total number of observations. To further validate our theoretical findings, we conduct comprehensive empirical evaluations. Overall, our work sheds light on the potential of using randomized sampling approaches to efficiently approximate the estimated probabilities in logistic regression, offering a practical and computationally efficient solution for large-scale datasets.

arxiv情報

著者 Agniva Chowdhury,Pradeep Ramuhalli
発行日 2024-03-31 08:45:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, stat.ML パーマリンク