Stochastic Variational Propagation: Local, Scalable and Efficient Alternative to Backpropagation

要約

Backpropagation(BP)は深い学習の基礎ですが、グローバル勾配同期への依存はスケーラビリティを制限し、重要なメモリオーバーヘッドを課します。
確率的変動伝播(SVP)を提案します。これは、トレーニングを階層的変異推論として再構成するスケーラブルな代替手段です。
SVPは、層の活性化を潜在変数として扱い、ローカルエビデンスの下限(ELBO)を最適化し、グローバルな一貫性を維持しながら、独立したローカルの更新を可能にします。
ただし、レイヤーごとのエルボにKL発散を直接適用すると、過度の圧縮により、層間の表現崩壊がリスクされます。
これを防ぐために、SVPは固定されたランダム行列を介して低次元空間にアクティブ化をプロジェクトし、情報の保存と表現の多様性を確保します。
層間の一貫性の機能アライメント損失と組み合わせると、SVPは多様なアーキテクチャ(MLP、CNNS、変圧器)およびデータセット(MNISTからImagENET)全体でBPとの競争精度を達成し、メモリの使用量を最大4Xで削減し、鱗可能性を大幅に向上させます。
さらに広く言えば、SVPは、よりモジュール式で解釈可能なニューラルネットワーク設計への経路を開いて、深い表現学習に確率論的な視点を導入します。

要約(オリジナル)

Backpropagation (BP) is the cornerstone of deep learning, but its reliance on global gradient synchronization limits scalability and imposes significant memory overhead. We propose Stochastic Variational Propagation (SVP), a scalable alternative that reframes training as hierarchical variational inference. SVP treats layer activations as latent variables and optimizes local Evidence Lower Bounds (ELBOs), enabling independent, local updates while preserving global coherence. However, directly applying KL divergence in layer-wise ELBOs risks inter-layer’s representation collapse due to excessive compression. To prevent this, SVP projects activations into low-dimensional spaces via fixed random matrices, ensuring information preservation and representational diversity. Combined with a feature alignment loss for inter-layer consistency, SVP achieves competitive accuracy with BP across diverse architectures (MLPs, CNNs, Transformers) and datasets (MNIST to ImageNet), reduces memory usage by up to 4x, and significantly improves scalability. More broadly, SVP introduces a probabilistic perspective to deep representation learning, opening pathways toward more modular and interpretable neural network design.

arxiv情報

著者 Bojian Yin,Federico Corradi
発行日 2025-05-08 12:32:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク