要約
量子ハードウェア上でバイナリ ニューラル ネットワーク (BNN) として知られる、バイナリの重みを備えたニューラル ネットワークのトレーニングに向けて調整された新しい層ごとの確率的オプティマイザーである QP-SBGD を紹介します。
BNN は、精度の低下を最小限に抑えながら、深層学習モデルの計算要件とエネルギー消費を削減します。
しかし、実際に彼らを訓練することは未解決の課題のままです。
ほとんどの既知の BNN オプティマイザーは、予測された更新に依存するか、トレーニング後の重みを 2 値化します。
代わりに、QP-SBGD は、二次制約付きバイナリ最適化を解くことにより、勾配をバイナリ変数に近似的にマッピングします。
実質的に合理的な仮定の下で、この更新ルールが $\mathcal{O}(1 / \sqrt{T})$ のレートで収束することを示します。
さらに、最近の量子計算の進歩を利用して、$\mathcal{NP}$-hard 射影を断熱量子アニーラーで効果的に実行する方法を示します。
また、この更新ルールの投影バージョンを導入し、バイナリ変数空間に固定点が存在する場合、修正された更新がそこに収束することを証明します。
最後に重要なことですが、私たちのアルゴリズムはレイヤーごとに実装されているため、リソースが限られた量子ハードウェアで大規模なネットワークをトレーニングするのに適しています。
広範な評価を通じて、QP-SBGD は、Rosenbrock 関数、トレーニング BNN、およびバイナリ グラフ ニューラル ネットワークを最適化する際に、BinaryConnect、signSGD、ProxQuant などの競合する十分に確立されたベースラインを上回ったり、同等のパフォーマンスを示したりすることを示しています。
要約(オリジナル)
We present, QP-SBGD, a novel layer-wise stochastic optimiser tailored towards training neural networks with binary weights, known as binary neural networks (BNNs), on quantum hardware. BNNs reduce the computational requirements and energy consumption of deep learning models with minimal loss in accuracy. However, training them in practice remains to be an open challenge. Most known BNN-optimisers either rely on projected updates or binarise weights post-training. Instead, QP-SBGD approximately maps the gradient onto binary variables, by solving a quadratic constrained binary optimisation. Under practically reasonable assumptions, we show that this update rule converges with a rate of $\mathcal{O}(1 / \sqrt{T})$. Moreover, we show how the $\mathcal{NP}$-hard projection can be effectively executed on an adiabatic quantum annealer, harnessing recent advancements in quantum computation. We also introduce a projected version of this update rule and prove that if a fixed point exists in the binary variable space, the modified updates will converge to it. Last but not least, our algorithm is implemented layer-wise, making it suitable to train larger networks on resource-limited quantum hardware. Through extensive evaluations, we show that QP-SBGD outperforms or is on par with competitive and well-established baselines such as BinaryConnect, signSGD and ProxQuant when optimising the Rosenbrock function, training BNNs as well as binary graph neural networks.
arxiv情報
著者 | Maximilian Krahn,Michelle Sasdelli,Fengyi Yang,Vladislav Golyanik,Juho Kannala,Tat-Jun Chin,Tolga Birdal |
発行日 | 2023-10-23 17:32:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google