Hardness of Agnostically Learning Halfspaces from Worst-Case Lattice Problems

要約

GapSVP や SIVP などの最悪の場合の格子問題が難しいという仮定に基づいて、分布に依存しない設定と分布固有の設定の両方で、不可知論的モデルで半空間を不適切に学習することの難しさを示します。
特に、この仮定の下では、半空間であるとは限らないバイナリ仮説を出力し、最適な誤分類誤差が
$\delta$ ほど小さい。
ここで、$\gamma$ は次元内の任意の多項式の逆数よりも小さく、$\delta$ は $exp(-\Omega(\log^{1-c}(d)))$ ほど小さくすることができます。ここで、$0
< c < 1$ は任意の定数で、$d$ は次元です。 分布固有の設定では、周辺分布が標準ガウス分布である場合、任意の $\beta > 0$ について、誤差 $OPT_{LTF} + \epsilon$ までの半空間の学習には少なくとも $d^{\tilde の時間がかかることを示します
{\Omega}(1/\epsilon^{2-\beta})}$ 同じ硬さの仮定の下で。
同様に、誤差 $OPT_{{PTF}_\ell} + \epsilon$ までの次数 $\ell$ 多項式しきい値関数の学習には、少なくとも $d^{\tilde{\Omega}(\ell^
{2-\beta}/\epsilon^{2-\beta})}$.
$OPT_{LTF}$ と $OPT_{{PTF}_\ell}$ は、半空間または多項式のしきい値関数によって達成可能な最良のエラーをそれぞれ示します。
私たちの下限はアルゴリズムの保証と定性的に一致し、最悪のケースではない仮定に基づいて既知の下限を (ほぼ) 回復します。
以前は、このような硬度の結果 [Daniely16、DKPZ21] は、平均的なケースの複雑さの仮定に基づいているか、統計クエリ モデルに限定されていました。
私たちの仕事は、最悪の場合の複雑さの仮定に基づいて、これらの基本的な学習問題に基づいて最初の硬度の結果を示します。
これは、最悪の場合の格子問題に基づいて、十分に分離されたガウス混合を学習することの難しさを示す一連の最近の研究に触発されています。

要約(オリジナル)

We show hardness of improperly learning halfspaces in the agnostic model, both in the distribution-independent as well as the distribution-specific setting, based on the assumption that worst-case lattice problems, such as GapSVP or SIVP, are hard. In particular, we show that under this assumption there is no efficient algorithm that outputs any binary hypothesis, not necessarily a halfspace, achieving misclassfication error better than $\frac 1 2 – \gamma$ even if the optimal misclassification error is as small is as small as $\delta$. Here, $\gamma$ can be smaller than the inverse of any polynomial in the dimension and $\delta$ as small as $exp(-\Omega(\log^{1-c}(d)))$, where $0 < c < 1$ is an arbitrary constant and $d$ is the dimension. For the distribution-specific setting, we show that if the marginal distribution is standard Gaussian, for any $\beta > 0$ learning halfspaces up to error $OPT_{LTF} + \epsilon$ takes time at least $d^{\tilde{\Omega}(1/\epsilon^{2-\beta})}$ under the same hardness assumptions. Similarly, we show that learning degree-$\ell$ polynomial threshold functions up to error $OPT_{{PTF}_\ell} + \epsilon$ takes time at least $d^{\tilde{\Omega}(\ell^{2-\beta}/\epsilon^{2-\beta})}$. $OPT_{LTF}$ and $OPT_{{PTF}_\ell}$ denote the best error achievable by any halfspace or polynomial threshold function, respectively. Our lower bounds qualitively match algorithmic guarantees and (nearly) recover known lower bounds based on non-worst-case assumptions. Previously, such hardness results [Daniely16, DKPZ21] were based on average-case complexity assumptions or restricted to the statistical query model. Our work gives the first hardness results basing these fundamental learning problems on worst-case complexity assumptions. It is inspired by a sequence of recent works showing hardness of learning well-separated Gaussian mixtures based on worst-case lattice problems.

arxiv情報

著者 Stefan Tiegel
発行日 2023-02-20 17:11:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CC, cs.LG, math.ST, stat.ML, stat.TH パーマリンク