Robust Learning of Multi-index Models via Iterative Subspace Approximation

要約

ガウス分布の下でラベルノイズを使用して、マルチインデックスモデル(MIM)を学習するタスクを研究します。
A $ k $ -MIMは、$ k $ -dimensionalサブスペースにのみ依存する関数$ f $です。
特定の規則性特性を満たす有限範囲を持つ、行儀の良いMIMに焦点を当てます。
私たちの主な貢献は、統計クエリ(SQ)モデルで定性的に最適な一般的な堅牢な学習者です。
私たちのアルゴリズムは、これまでに計算されたサブスペースへの投影を条件とし、比較的大きな経験的モーメントを持つ方向を追加することを条件とする低程度のモーメントを計算することにより、定義サブスペースのより良い近似を繰り返し構築します。
この手順は、$ f(\ mathbf {x})$が$ \ mathbf {x} $の投影の関数に近いように、サブスペース$ v $を効率的に見つけます。
逆に、これらの条件付きモーメントが役に立たない機能については、効率的な学習者が存在しないことを示唆するSQの下限を証明します。
アプリケーションとして、次の概念クラスに対してより高速な堅牢な学習者を提供します。 * {\ bfマルチクラス線形分類器}一定の因子に、サンプルの複雑さ$ n = o(d)2^{\ mathrm {poly}(
k/\ epsilon)} $および計算の複雑さ$ \ mathrm {poly}(n、d)$。
これは、このクラスの最初の一定の因子不可知論者学習者であり、その複雑さは$ d $の固定級多項式です。
* {\ bfハーフスペースの交差点}このクラスのおおよその不可知論学習者に0-1エラー$ k \ tilde {o}(\ mathrm {opt}) + \ epsilon $ with supplementity $ n = o(d^
2)2^{\ mathrm {poly}(k/\ epsilon)} $および計算の複雑さ$ \ mathrm {poly}(n、d)$。
これは、このクラスの最初の不可知論者の学習者であり、ほぼ線形の誤差依存性と複雑さが$ d $の固定級多項式です。
さらに、ランダム分類ノイズが存在する場合、アルゴリズムの複雑さは、$ 1/\ epsilon $で多項式的にスケーリングすることを示しています。

要約(オリジナル)

We study the task of learning Multi-Index Models (MIMs) with label noise under the Gaussian distribution. A $K$-MIM is any function $f$ that only depends on a $K$-dimensional subspace. We focus on well-behaved MIMs with finite ranges that satisfy certain regularity properties. Our main contribution is a general robust learner that is qualitatively optimal in the Statistical Query (SQ) model. Our algorithm iteratively constructs better approximations to the defining subspace by computing low-degree moments conditional on the projection to the subspace computed thus far, and adding directions with relatively large empirical moments. This procedure efficiently finds a subspace $V$ so that $f(\mathbf{x})$ is close to a function of the projection of $\mathbf{x}$ onto $V$. Conversely, for functions for which these conditional moments do not help, we prove an SQ lower bound suggesting that no efficient learner exists. As applications, we provide faster robust learners for the following concept classes: * {\bf Multiclass Linear Classifiers} We give a constant-factor approximate agnostic learner with sample complexity $N = O(d) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first constant-factor agnostic learner for this class whose complexity is a fixed-degree polynomial in $d$. * {\bf Intersections of Halfspaces} We give an approximate agnostic learner for this class achieving 0-1 error $K \tilde{O}(\mathrm{OPT}) + \epsilon$ with sample complexity $N=O(d^2) 2^{\mathrm{poly}(K/\epsilon)}$ and computational complexity $\mathrm{poly}(N ,d)$. This is the first agnostic learner for this class with near-linear error dependence and complexity a fixed-degree polynomial in $d$. Furthermore, we show that in the presence of random classification noise, the complexity of our algorithm scales polynomially with $1/\epsilon$.

arxiv情報

著者 Ilias Diakonikolas,Giannis Iakovidis,Daniel M. Kane,Nikos Zarifis
発行日 2025-02-13 17:37:42+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク