On the sample complexity of parameter estimation in logistic regression with normal design

要約

ロジスティック回帰モデルは、ノイズの多い二項分類問題で最も一般的なデータ生成モデルの 1 つです。
この研究では、標準正規共変量を使用して、次元と逆温度の観点から、特定の $\ell_2$ 誤差までロジスティック回帰モデルのパラメータを推定するサンプルの複雑さを研究します。
温度の逆数は、データ生成プロセスの信号対雑音比を制御します。
一般化限界とロジスティック回帰の最尤推定量の漸近性能は両方ともよく研究されていますが、パラメータ推定の誤差と逆温度への依存性を示す非漸近サンプルの複雑さは以前の分析には存在しません。
サンプルの複雑さの曲線には、温度の逆数に関して 2 つの変化点があり、低温、中程度、および高温の温度領域を明確に分けていることがわかります。

要約(オリジナル)

The logistic regression model is one of the most popular data generation model in noisy binary classification problems. In this work, we study the sample complexity of estimating the parameters of the logistic regression model up to a given $\ell_2$ error, in terms of the dimension and the inverse temperature, with standard normal covariates. The inverse temperature controls the signal-to-noise ratio of the data generation process. While both generalization bounds and asymptotic performance of the maximum-likelihood estimator for logistic regression are well-studied, the non-asymptotic sample complexity that shows the dependence on error and the inverse temperature for parameter estimation is absent from previous analyses. We show that the sample complexity curve has two change-points in terms of the inverse temperature, clearly separating the low, moderate, and high temperature regimes.

arxiv情報

著者 Daniel Hsu,Arya Mazumdar
発行日 2024-05-20 16:29:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.IT, cs.LG, math.IT, math.ST, stat.ML, stat.TH パーマリンク