On the hardness of learning under symmetries

要約

我々は、勾配降下法による等変量ニューラルネットワークの学習問題を研究している。既知の対称性(「等変量性」)をニューラルネットに組み込むことで、生物学からコンピュータビジョンまでの領域において、経験的に学習パイプラインの性能が向上してきた。しかしながら、学習理論的な研究の豊かな別系統は、勾配降下を包含するフレームワークである相関統計クエリー(CSQ)モデルにおいて、浅い完全結合(すなわち非対称)ネットワークを実際に学習することは指数関数的な複雑さを持つことを実証してきた。この研究では、既知の問題対称性は、勾配降下法によるニューラルネット学習の基本的な難しさを緩和するのに十分なのか?我々はこの問いに否定的に答える。特に、順列部分群に対する浅いグラフニューラルネットワーク、畳み込みネットワーク、不変多項式、およびフレーム平均ネットワークに対する下界を与えるが、これらはすべて関連する入力次元において超多項式的または指数関数的にスケールする。従って、対称性を介して付与された重要な帰納的バイアスにもかかわらず、勾配降下によって等変量ニューラルネットワークによって表される関数の完全なクラスを実際に学習することは依然として困難である。

要約(オリジナル)

We study the problem of learning equivariant neural networks via gradient descent. The incorporation of known symmetries (‘equivariance’) into neural nets has empirically improved the performance of learning pipelines, in domains ranging from biology to computer vision. However, a rich yet separate line of learning theoretic research has demonstrated that actually learning shallow, fully-connected (i.e. non-symmetric) networks has exponential complexity in the correlational statistical query (CSQ) model, a framework encompassing gradient descent. In this work, we ask: are known problem symmetries sufficient to alleviate the fundamental hardness of learning neural nets with gradient descent? We answer this question in the negative. In particular, we give lower bounds for shallow graph neural networks, convolutional networks, invariant polynomials, and frame-averaged networks for permutation subgroups, which all scale either superpolynomially or exponentially in the relevant input dimension. Therefore, in spite of the significant inductive bias imparted via symmetry, actually learning the complete classes of functions represented by equivariant neural networks via gradient descent remains hard.

arxiv情報

著者 Bobak T. Kiani,Thien Le,Hannah Lawrence,Stefanie Jegelka,Melanie Weber
発行日 2024-01-03 18:24:18+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.DS, cs.LG, math.ST, stat.ML, stat.TH パーマリンク