要約
トレーニング量子化されたニューラルネットワークには、基礎となる最適化問題の非分化不可能で離散的な性質に対処する必要があります。
この課題に取り組むために、ストレートスルー推定器(STE)は最も広く採用されているヒューリスティックになり、代理勾配を導入することにより、離散操作を通じてバックプロパゲーションを可能にします。
ただし、その理論的特性はほとんど未踏のままであり、無限の量のトレーニングデータを想定することにより分析を簡素化する既存の研究はほとんどありません。
対照的に、この作業は、ニューラルネットワークの量子化のコンテキストにおけるSTEの最初の有限サンプル分析を示しています。
当社の理論的結果は、STEの成功におけるサンプルサイズの重要な役割を強調しています。これは、既存の研究に欠けている重要な洞察です。
具体的には、バイナリの重みと活性化を備えた2層ニューラルネットワークの量子化対応トレーニングを分析することにより、STEベースの最適化の収束をグローバル最小値に保証するデータ次元の観点からサンプルの複雑さを導き出します。
さらに、ラベルノイズの存在下で、繰り返しが繰り返し逃げ出し、最適なバイナリウェイトに戻る、段階的方法の興味深い再発特性を明らかにします。
私たちの分析は、圧縮センシングと動的システム理論のツールを活用しています。
要約(オリジナル)
Training quantized neural networks requires addressing the non-differentiable and discrete nature of the underlying optimization problem. To tackle this challenge, the straight-through estimator (STE) has become the most widely adopted heuristic, allowing backpropagation through discrete operations by introducing surrogate gradients. However, its theoretical properties remain largely unexplored, with few existing works simplifying the analysis by assuming an infinite amount of training data. In contrast, this work presents the first finite-sample analysis of STE in the context of neural network quantization. Our theoretical results highlight the critical role of sample size in the success of STE, a key insight absent from existing studies. Specifically, by analyzing the quantization-aware training of a two-layer neural network with binary weights and activations, we derive the sample complexity bound in terms of the data dimensionality that guarantees the convergence of STE-based optimization to the global minimum. Moreover, in the presence of label noises, we uncover an intriguing recurrence property of STE-gradient method, where the iterate repeatedly escape from and return to the optimal binary weights. Our analysis leverages tools from compressed sensing and dynamical systems theory.
arxiv情報
著者 | Halyun Jeong,Jack Xin,Penghang Yin |
発行日 | 2025-05-23 17:11:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google