An Efficient Tester-Learner for Halfspaces

要約

Rubinfeld と Vasilyan (2023) によって最近定義されたテスト可能な学習モデルで、半空間を学習するための最初の効率的なアルゴリズムを提供します。
このモデルでは、学習者は、トレーニング セットが関連するテストに合格するたびに、その出力仮説の精度がほぼ最適であることを証明し、ガウスなどのターゲット分布から抽出されたトレーニング セットはテストに合格する必要があります。
このモデルは、分布の仮定が成り立たない場合に学習者が任意に失敗することが許される、分布固有の不可知論的または Massart ノイズ モデルよりも困難です。
ターゲット分布が $d$ 次元のガウス (または、より一般的には任意の強い対数凹分布) であり、ノイズ モデルが Massart または adversarial (不可知論的) である設定を検討します。
Massart ノイズの場合、テスター学習器は多項式時間で実行され、強い対数凹ターゲット分布に対して (情報理論的に最適な) 誤差 $\mathsf{opt} + \epsilon$ で仮説を出力します。
敵対的ノイズの場合、ターゲット分布がガウス分布の場合、テスター学習者は多項式時間でエラー $O(\mathsf{opt}) + \epsilon$ を取得します。
強い対数凹分布の場合、準多項式時間で $\tilde{O}(\mathsf{opt}) + \epsilon$ を取得します。
テスト可能な学習に関する以前の作業では、トレーニング セットのラベルが無視され、共変量の経験的モーメントが基本分布のモーメントに近いことが確認されます。
ここでは、ラベルを批判的に利用し、それらをGollakotaらのモーメントマッチングアプローチと組み合わせる、独立した関心のある新しいテストを開発します。
(2023)。
これにより、Diakonikolas らのアルゴリズムの変形をシミュレートできます。
(2020) 非凸 SGD を使用してノイズの多い半空間を学習しますが、テスト可能な学習設定で使用します。

要約(オリジナル)

We give the first efficient algorithm for learning halfspaces in the testable learning model recently defined by Rubinfeld and Vasilyan (2023). In this model, a learner certifies that the accuracy of its output hypothesis is near optimal whenever the training set passes an associated test, and training sets drawn from some target distribution — e.g., the Gaussian — must pass the test. This model is more challenging than distribution-specific agnostic or Massart noise models where the learner is allowed to fail arbitrarily if the distributional assumption does not hold. We consider the setting where the target distribution is Gaussian (or more generally any strongly log-concave distribution) in $d$ dimensions and the noise model is either Massart or adversarial (agnostic). For Massart noise, our tester-learner runs in polynomial time and outputs a hypothesis with (information-theoretically optimal) error $\mathsf{opt} + \epsilon$ for any strongly log-concave target distribution. For adversarial noise, our tester-learner obtains error $O(\mathsf{opt}) + \epsilon$ in polynomial time when the target distribution is Gaussian; for strongly log-concave distributions, we obtain $\tilde{O}(\mathsf{opt}) + \epsilon$ in quasipolynomial time. Prior work on testable learning ignores the labels in the training set and checks that the empirical moments of the covariates are close to the moments of the base distribution. Here we develop new tests of independent interest that make critical use of the labels and combine them with the moment-matching approach of Gollakota et al. (2023). This enables us to simulate a variant of the algorithm of Diakonikolas et al. (2020) for learning noisy halfspaces using nonconvex SGD but in the testable learning setting.

arxiv情報

著者 Aravind Gollakota,Adam R. Klivans,Konstantinos Stavropoulos,Arsen Vasilyan
発行日 2023-03-13 15:37:44+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク