要約
深い学習の礎であるにもかかわらず、バックプロパゲーションは、非常に深いモデルのスケーラビリティを制限できる固有の順次性について批判されています。
このようなモデルは、勾配の消失による収束の問題に直面し、後に残留接続を使用して解決しました。
これらのバリエーションは現在、現代建築で広く使用されています。
ただし、バックプロパゲーションの計算コストは依然として大きな負担であり、ほとんどのトレーニング時間を占めています。
残留様式の建築設計を活用して、Highway Back-Propagationは、バックプロパゲーションに近似する並列化可能な反復アルゴリズムであり、代わりにi)残差経路に沿った勾配推定値を蓄積し、ii)並列のすべてのレイヤーを介してバックプロパゲートします。
このアルゴリズムは、すべてのパスを流れる勾配の合計として勾配の分解から自然に導き出され、再ネットや変圧器から再発性ニューラルネットワークに至るまで、多様な共通アーキテクチャに適応できます。
タスクとモデルの幅広い選択に関する広範な経験的研究を通じて、高速道路BPを評価し、パフォーマンスの低下で主要なスピードアップを達成できることを示します。
要約(オリジナル)
Despite being the cornerstone of deep learning, backpropagation is criticized for its inherent sequentiality, which can limit the scalability of very deep models. Such models faced convergence issues due to vanishing gradient, later resolved using residual connections. Variants of these are now widely used in modern architecture. However, the computational cost of backpropagation remains a major burden, accounting for most of the training time. Taking advantage of residual-like architectural designs, we introduce Highway backpropagation, a parallelizable iterative algorithm that approximates backpropagation, by alternatively i) accumulating the gradient estimates along the residual path, and ii) backpropagating them through every layer in parallel. This algorithm is naturally derived from a decomposition of the gradient as the sum of gradients flowing through all paths and is adaptable to a diverse set of common architectures, ranging from ResNets and Transformers to recurrent neural networks. Through an extensive empirical study on a large selection of tasks and models, we evaluate Highway-BP and show that major speedups can be achieved with minimal performance degradation.
arxiv情報
著者 | Erwan Fagnou,Paul Caillon,Blaise Delattre,Alexandre Allauzen |
発行日 | 2025-01-28 17:14:42+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google