A Unified Theory of Quantum Neural Network Loss Landscapes

要約

ランダムな初期化を持つ古典的なニューラルネットワークは、多数のニューロンが存在する極限においてガウス過程として振る舞うことが有名であり、これによってその学習と汎化の振る舞いを完全に特徴付けることができる。量子ニューラルネットワーク(QNN)については、そのような一般的な理解は存在せず、ある特殊なケースを除いて、ランダムに初期化してもガウス過程として振る舞わないことが知られている。我々は、QNNとその最初の2つの導関数が、一般に「ウィシャート過程」と呼ばれるものを形成することを証明する。このWishart過程の記述により、我々は初めて、QNNアーキテクチャがガウス過程極限を持つための必要十分条件を与え、これまで知られていた不毛のプラトーの結果を一般化し、完全な勾配分布を計算し、代数的に制約されたQNNの局所極小分布を計算することができる。また、代数的に制約されたQNNの局所極小分布を計算する。我々の統一されたフレームワークは、ネットワークアーキテクチャの「自由度」と呼ぶ、新しく導入された実験的にアクセス可能な量を用いて、与えられたQNNモデルの「訓練可能性」について、ある簡単な操作上の定義を提案する。

要約(オリジナル)

Classical neural networks with random initialization famously behave as Gaussian processes in the limit of many neurons, which allows one to completely characterize their training and generalization behavior. No such general understanding exists for quantum neural networks (QNNs), which — outside of certain special cases — are known to not behave as Gaussian processes when randomly initialized. We here prove that QNNs and their first two derivatives instead generally form what we call ‘Wishart processes,’ where certain algebraic properties of the network determine the hyperparameters of the process. This Wishart process description allows us to, for the first time: give necessary and sufficient conditions for a QNN architecture to have a Gaussian process limit; calculate the full gradient distribution, generalizing previously known barren plateau results; and calculate the local minima distribution of algebraically constrained QNNs. Our unified framework suggests a certain simple operational definition for the ‘trainability’ of a given QNN model using a newly introduced, experimentally accessible quantity we call the ‘degrees of freedom’ of the network architecture.

arxiv情報

著者 Eric R. Anschuetz
発行日 2024-10-04 15:33:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, quant-ph パーマリンク