The Space Complexity of Approximating Logistic Loss

要約

データ$mathbf{X} ∕in ∕mathbb{R}^{n ∕times d}$、ラベル$mathbf{y} ∕in ∕mathbb{R}^{n ∕times d}$のロジスティック回帰問題において、ロジスティック損失を$epsilon$相対誤差まで近似するデータ構造の空間複雑度下界を与える。\である。既存のコアセット構築の空間複雑度は、(Munteanu, 2018)で最初に定義された自然な複雑度尺度$mu_mathbf{y}( \mathbf{X})$ に依存する。我々は、$mu_mathbf{y}( \mathbf{X}) = O(1)$ の領域で$tilde{Omega}( \frac{d}{epsilon^2})$ 空間複雑度下界を与え、既存のコアセットがこの領域で低次の因子まで最適であることを示す。また、$epsilon$が定数であるときの一般的な$tilde{Omega}(dcdot \mu_mathbf{y}( \mathbf{X}))$空間の下界を証明し、$mu_mathbf{y}( \mathbf{X})$ への依存性がマージ可能なコアセットのアーティファクトではないことを示す。最後に、$mmu_mathbf{y}( \mathbf{X})$ は計算が難しいという事前の予想に、効率的な線形計画法の定式化を提供することで反証し、我々のアルゴリズムを先行する近似手法と経験的に比較する。

要約(オリジナル)

We provide space complexity lower bounds for data structures that approximate logistic loss up to $\epsilon$-relative error on a logistic regression problem with data $\mathbf{X} \in \mathbb{R}^{n \times d}$ and labels $\mathbf{y} \in \{-1,1\}^d$. The space complexity of existing coreset constructions depend on a natural complexity measure $\mu_\mathbf{y}(\mathbf{X})$, first defined in (Munteanu, 2018). We give an $\tilde{\Omega}(\frac{d}{\epsilon^2})$ space complexity lower bound in the regime $\mu_\mathbf{y}(\mathbf{X}) = O(1)$ that shows existing coresets are optimal in this regime up to lower order factors. We also prove a general $\tilde{\Omega}(d\cdot \mu_\mathbf{y}(\mathbf{X}))$ space lower bound when $\epsilon$ is constant, showing that the dependency on $\mu_\mathbf{y}(\mathbf{X})$ is not an artifact of mergeable coresets. Finally, we refute a prior conjecture that $\mu_\mathbf{y}(\mathbf{X})$ is hard to compute by providing an efficient linear programming formulation, and we empirically compare our algorithm to prior approximate methods.

arxiv情報

著者 Gregory Dexter,Petros Drineas,Rajiv Khanna
発行日 2024-12-03 18:11:37+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG パーマリンク