Iterative thresholding for non-linear learning in the strong $\varepsilon$-contamination model

要約

ラベルと共変量の両方が敵対的に破損する可能性がある場合、閾値勾配降下法を使用して単一ニューロン モデルを学習するための近似限界を導出します。
データはモデル $y = \sigma(\mathbf{w}^{*} \cdot \mathbf{x}) + \xi,$ に従うと仮定します。ここで $\sigma$ は非線形活性化関数、ノイズ $\
xi$ はガウス分布であり、共変量ベクトル $\mathbf{x}$ はサブガウス分布からサンプリングされます。
シグモイド関数、リーキー ReLU 関数、および ReLU 活性化関数を研究し、$\ell_{2}$-norm における $O(\nu\sqrt{\epsilon\log(1/\epsilon)})$ 近似限界を導出します。
サンプルの複雑さ $O(d/\epsilon)$ と失敗確率 $e^{-\Omega(d)}$。
$\sigma(\mathbf{x}) = \mathbf{x}$ という線形回帰問題も研究します。
$O(\nu\epsilon\log(1/\epsilon))$ 近似限界を導出し、Bhatia らの勾配降下法ベースの反復閾値アルゴリズムの以前の $O(\nu)$ 近似限界を改良しました。
(NeurIPS 2015) および Shen と Sanghavi (ICML 2019)。
$\|\mathbf{w}^{*}\|_2 \leq R$ の場合、アルゴリズムの実行時の複雑さは $O(\textrm{polylog}(N,d)\log(R/\epsilon))$ になります。
Awasthi らの $O(\text{polylog}(N,d)/\epsilon^2)$ ランタイムの複雑さを改善します。
(NeurIPS 2022)。

要約(オリジナル)

We derive approximation bounds for learning single neuron models using thresholded gradient descent when both the labels and the covariates are possibly corrupted adversarially. We assume the data follows the model $y = \sigma(\mathbf{w}^{*} \cdot \mathbf{x}) + \xi,$ where $\sigma$ is a nonlinear activation function, the noise $\xi$ is Gaussian, and the covariate vector $\mathbf{x}$ is sampled from a sub-Gaussian distribution. We study sigmoidal, leaky-ReLU, and ReLU activation functions and derive a $O(\nu\sqrt{\epsilon\log(1/\epsilon)})$ approximation bound in $\ell_{2}$-norm, with sample complexity $O(d/\epsilon)$ and failure probability $e^{-\Omega(d)}$. We also study the linear regression problem, where $\sigma(\mathbf{x}) = \mathbf{x}$. We derive a $O(\nu\epsilon\log(1/\epsilon))$ approximation bound, improving upon the previous $O(\nu)$ approximation bounds for the gradient-descent based iterative thresholding algorithms of Bhatia et al. (NeurIPS 2015) and Shen and Sanghavi (ICML 2019). Our algorithm has a $O(\textrm{polylog}(N,d)\log(R/\epsilon))$ runtime complexity when $\|\mathbf{w}^{*}\|_2 \leq R$, improving upon the $O(\text{polylog}(N,d)/\epsilon^2)$ runtime complexity of Awasthi et al. (NeurIPS 2022).

arxiv情報

著者 Arvind Rathnashyam,Alex Gittens
発行日 2024-09-05 16:59:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク