Alternating Differentiation for Optimization Layers

要約

タイトル:Optimization LayersのためのAlternating Differentiation

要約:

– Optimization Layersという概念は、制約条件と帰納的な優先度をエンコードするために、最近深層ニューラルネットワークに最適化問題を組み込む方法である。
– 多くの既存の方法は、Jacobain行列上のコンピュータリソースを必要とするカルーシュクーントッカー(KKT)条件を暗黙的に微分することに焦点を当てており、計算時間やメモリ消費量が多くなる。
– 本論文では、凸最適化問題を再帰的かつ高速に微分する新しいフレームワークであるAlternating Differentiation(Alt-Diff)を開発した。
– Alt-Diffは、プライマル更新とデュアル更新を交互に行い、微分手順を分解することで、大規模な制約をもつ最適化においてJacobain行列の次元を大幅に削減し、隠れた微分を高速化する。
– 表示する実験の一連の系列は、Alt-Diffの優位性を証明している。

要約(オリジナル)

The idea of embedding optimization problems into deep neural networks as optimization layers to encode constraints and inductive priors has taken hold in recent years. Most existing methods focus on implicitly differentiating Karush-Kuhn-Tucker (KKT) conditions in a way that requires expensive computations on the Jacobian matrix, which can be slow and memory-intensive. In this paper, we developed a new framework, named Alternating Differentiation (Alt-Diff), that differentiates optimization problems (here, specifically in the form of convex optimization problems with polyhedral constraints) in a fast and recursive way. Alt-Diff decouples the differentiation procedure into a primal update and a dual update in an alternating way. Accordingly, Alt-Diff substantially decreases the dimensions of the Jacobian matrix especially for optimization with large-scale constraints and thus increases the computational speed of implicit differentiation. We show that the gradients obtained by Alt-Diff are consistent with those obtained by differentiating KKT conditions. In addition, we propose to truncate Alt-Diff to further accelerate the computational speed. Under some standard assumptions, we show that the truncation error of gradients is upper bounded by the same order of variables’ estimation error. Therefore, Alt-Diff can be truncated to further increase computational speed without sacrificing much accuracy. A series of comprehensive experiments validate the superiority of Alt-Diff.

arxiv情報

著者 Haixiang Sun,Ye Shi,Jingya Wang,Hoang Duong Tuan,H. Vincent Poor,Dacheng Tao
発行日 2023-04-24 06:33:10+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG, math.OC パーマリンク