Efficient Training of Deep Equilibrium Models

要約

タイトル:深層均衡モデルの効率的なトレーニング
要約:
– 深層均衡モデル(DEQ)は、データ表現を学習するために非常に強力です。
– 伝統的なフィードフォワード型ニューラルネットワークを暗黙的な不動点方程式で置き換えることで、順伝播と逆伝播を分離することができます。
– 特に、暗黙的な関数定理により、DEQ層のトレーニングは非常にメモリ効率的になります。
– しかし、DEQ層を介した逆伝播はまだ高価なヤコビアンベースの方程式を解く必要があります。
– 本論文では、この計算負荷を回避するための単純で効果的な戦略を紹介します。
– 我々の方法は、逆伝播中に勾配を計算するために、前方パスの後にブロイデン法のヤコビアン近似に依存します。
– 実験結果は、この近似を再利用するだけで、トレーニングを著しく高速化でき、性能の低下を引き起こさないことを示しています。

要約(オリジナル)

Deep equilibrium models (DEQs) have proven to be very powerful for learning data representations. The idea is to replace traditional (explicit) feedforward neural networks with an implicit fixed-point equation, which allows to decouple the forward and backward passes. In particular, training DEQ layers becomes very memory-efficient via the implicit function theorem. However, backpropagation through DEQ layers still requires solving an expensive Jacobian-based equation. In this paper, we introduce a simple but effective strategy to avoid this computational burden. Our method relies on the Jacobian approximation of Broyden’s method after the forward pass to compute the gradients during the backward pass. Experiments show that simply re-using this approximation can significantly speed up the training while not causing any performance degradation.

arxiv情報

著者 Bac Nguyen,Lukas Mauch
発行日 2023-04-23 14:20:09+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク