要約
この論文では、誤った仕様に基づく分類に関するいくつかの古典的な問題を再検討します。
特に、レート $\eta$ の Massart ノイズの下での半空間の学習の問題を研究します。
Diakonikolas、Goulekakis、Tzamos は最近の研究で、$\epsilon > 0$ の $\eta + \epsilon$ の精度を学習するための最初の効率的なアルゴリズムを提供することで、長年の問題を解決しました。
しかし、彼らのアルゴリズムは、空間を $\text{poly}(d,1/\epsilon)$ 領域に分割するという複雑な仮説を出力します。
ここでは、より単純なアルゴリズムを提供し、その過程で多くの未解決の疑問を解決します。 (1) $\eta + \epsilon$ を達成する Massart 半空間の最初の適切な学習器を提供します。
また、多項式時間アルゴリズムによって達成可能なサンプルの複雑さの制限も改善されました。
(2) (1) に基づいて、任意の複雑な分類器を同等に優れた適切な分類器に変換するブラックボックス知識蒸留手順を開発します。
(3) 単純だが見落とされている進化可能性との関係を活用することで、どんな SQ アルゴリズムも $\mathsf{OPT} + \epsilon$ を達成するために超多項式に多くのクエリを必要とすることを示します。
さらに、奇数の単調な $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ という一般化線形モデルを研究します。
、およびリプシッツ関数 $\sigma$。
このファミリーには、特殊なケースとして前述のハーフスペース モデルが含まれていますが、より豊富で、ロジスティック回帰などの他の基本モデルも含まれています。
Massart ノイズを一般化する挑戦的な新しい破損モデルを導入し、この設定での学習のための一般的なアルゴリズムを提供します。
私たちのアルゴリズムは、誤った仕様が存在する場合に分類する方法を学習するための、少数のコア レシピのセットに基づいています。
最後に、Massart ノイズの下でハーフスペースを学習するアルゴリズムを実験的に研究し、それがいくつかの魅力的な公平性特性を示すことを発見しました。
要約(オリジナル)
In this paper we revisit some classic problems on classification under misspecification. In particular, we study the problem of learning halfspaces under Massart noise with rate $\eta$. In a recent work, Diakonikolas, Goulekakis, and Tzamos resolved a long-standing problem by giving the first efficient algorithm for learning to accuracy $\eta + \epsilon$ for any $\epsilon > 0$. However, their algorithm outputs a complicated hypothesis, which partitions space into $\text{poly}(d,1/\epsilon)$ regions. Here we give a much simpler algorithm and in the process resolve a number of outstanding open questions: (1) We give the first proper learner for Massart halfspaces that achieves $\eta + \epsilon$. We also give improved bounds on the sample complexity achievable by polynomial time algorithms. (2) Based on (1), we develop a blackbox knowledge distillation procedure to convert an arbitrarily complex classifier to an equally good proper classifier. (3) By leveraging a simple but overlooked connection to evolvability, we show any SQ algorithm requires super-polynomially many queries to achieve $\mathsf{OPT} + \epsilon$. Moreover we study generalized linear models where $\mathbb{E}[Y|\mathbf{X}] = \sigma(\langle \mathbf{w}^*, \mathbf{X}\rangle)$ for any odd, monotone, and Lipschitz function $\sigma$. This family includes the previously mentioned halfspace models as a special case, but is much richer and includes other fundamental models like logistic regression. We introduce a challenging new corruption model that generalizes Massart noise, and give a general algorithm for learning in this setting. Our algorithms are based on a small set of core recipes for learning to classify in the presence of misspecification. Finally we study our algorithm for learning halfspaces under Massart noise empirically and find that it exhibits some appealing fairness properties.
arxiv情報
著者 | Sitan Chen,Frederic Koehler,Ankur Moitra,Morris Yau |
発行日 | 2023-09-20 14:40:02+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google