要約
二乗損失目標を使用して、ガウス境界上で任意にバイアスされた ReLU 活性化 (またはニューロン) を学習する問題を検討します。
ReLU ニューロンは現代のニューラル ネットワークの基本的な構成要素であるにもかかわらず、任意の 1 つの ReLU ニューロンが実現不可能な設定で学習可能かどうかという基本的なアルゴリズムの問題はまだ理解されていません。
特に、既存のすべての多項式時間アルゴリズムは、より適切に動作する不偏設定または制限付きバイアス設定の近似保証のみを提供します。
私たちの主な結果は、任意のバイアスに対する最初の定数因子近似を与える多項式時間統計クエリ (SQ) アルゴリズムです。
$\mathrm{poly}(d,1/\varepsilon)$ の時間内に $O(\mathrm{OPT}) + \varepsilon$ の損失を達成する ReLU アクティベーションを出力します。ここで、$\mathrm{OPT}$ は
最適な ReLU 活性化によって得られる損失。
私たちのアルゴリズムは、すべて勾配降下法に基づいているため、相関統計クエリ (CSQ) アルゴリズムのクラスに分類される既存のアルゴリズムからの興味深い逸脱を示しています。
多項式時間 CSQ アルゴリズムでは定数因数近似を達成できないことを示すことで、アルゴリズムの結果を補完します。
これらの結果を総合すると、SQ アルゴリズムと CSQ アルゴリズムが分離されているおそらく最も単純な設定 (単一ニューロン) が特定されると同時に、勾配降下法の本質的な制限が明らかになります。
要約(オリジナル)
We consider the problem of learning an arbitrarily-biased ReLU activation (or neuron) over Gaussian marginals with the squared loss objective. Despite the ReLU neuron being the basic building block of modern neural networks, we still do not understand the basic algorithmic question of whether one arbitrary ReLU neuron is learnable in the non-realizable setting. In particular, all existing polynomial time algorithms only provide approximation guarantees for the better-behaved unbiased setting or restricted bias setting. Our main result is a polynomial time statistical query (SQ) algorithm that gives the first constant factor approximation for arbitrary bias. It outputs a ReLU activation that achieves a loss of $O(\mathrm{OPT}) + \varepsilon$ in time $\mathrm{poly}(d,1/\varepsilon)$, where $\mathrm{OPT}$ is the loss obtained by the optimal ReLU activation. Our algorithm presents an interesting departure from existing algorithms, which are all based on gradient descent and thus fall within the class of correlational statistical query (CSQ) algorithms. We complement our algorithmic result by showing that no polynomial time CSQ algorithm can achieve a constant factor approximation. Together, these results shed light on the intrinsic limitation of gradient descent, while identifying arguably the simplest setting (a single neuron) where there is a separation between SQ and CSQ algorithms.
arxiv情報
著者 | Anxin Guo,Aravindan Vijayaraghavan |
発行日 | 2024-11-21 17:43:51+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google