LPGD: A General Framework for Backpropagation through Embedded Optimization Layers

要約

パラメーター化された最適化問題をレイヤーとして機械学習アーキテクチャに埋め込むと、強力な誘導バイアスとして機能します。
確率的勾配降下法を使用してこのようなアーキテクチャをトレーニングするには注意が必要です。これは、埋め込まれた最適化問題の縮退導関数によって勾配が有益でなくなることがよくあるためです。
私たちは、自動微分ライブラリにシームレスに統合される最適化層が組み込まれたアーキテクチャをトレーニングするための柔軟なフレームワークである、ラグランジュ近似勾配降下法 (LPGD) を提案します。
LPGD は、摂動された入力に対してフォワード ソルバー オラクルを再実行することにより、縮退した最適化層の導関数の意味のある置換を効率的に計算します。
LPGD は、従来の最適化手法との深いつながりを促進しながら、以前に提案されたさまざまな手法を特殊なケースとして捉えます。
私たちは手法を理論的に分析し、微分可能な設定であっても LPGD が勾配降下法よりも速く収束することを履歴データと合成データで実証します。

要約(オリジナル)

Embedding parameterized optimization problems as layers into machine learning architectures serves as a powerful inductive bias. Training such architectures with stochastic gradient descent requires care, as degenerate derivatives of the embedded optimization problem often render the gradients uninformative. We propose Lagrangian Proximal Gradient Descent (LPGD) a flexible framework for training architectures with embedded optimization layers that seamlessly integrates into automatic differentiation libraries. LPGD efficiently computes meaningful replacements of the degenerate optimization layer derivatives by re-running the forward solver oracle on a perturbed input. LPGD captures various previously proposed methods as special cases, while fostering deep links to traditional optimization methods. We theoretically analyze our method and demonstrate on historical and synthetic data that LPGD converges faster than gradient descent even in a differentiable setup.

arxiv情報

著者 Anselm Paulus,Georg Martius,Vít Musil
発行日 2024-07-08 13:27:41+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク