Differentiable Frank-Wolfe Optimization Layer

要約

微分可能な最適化は、ニューラル ネットワークに基づく機械学習の分野における基礎的な役割により、大きな注目を集めています。
既存の方法では、最適性条件と陰関数定理を利用して出力のヤコビ行列を取得しますが、これにより計算コストが増加し、微分可能な最適化の適用が制限されます。
さらに、微分不可能な制約によっては、以前の微分可能な最適化層を使用する場合にさらなる課題が発生します。
この論文では、射影やヘッセ行列計算を行わずに制約付き最適化問題を解決できるよく知られた最適化アルゴリズムである Frank-Wolfe 法を展開することにより、Differentiable Frank-Wolfe Layer (DFWLayer) と呼ばれる微分可能層を提案します。
大規模な問題に対処する方法。
理論的には、l1-norm 制約のコンテキストで DFWLayer の準最適性ギャップの境界を確立します。
実験による評価では、DFWLayer が解と勾配において競合する精度を達成するだけでなく、一貫して制約を遵守していることが実証されています。
さらに、順方向と逆方向の両方の計算速度においてベースラインを上回っています。

要約(オリジナル)

Differentiable optimization has received a significant amount of attention due to its foundational role in the domain of machine learning based on neural networks. The existing methods leverages the optimality conditions and implicit function theorem to obtain the Jacobian matrix of the output, which increases the computational cost and limits the application of differentiable optimization. In addition, some non-differentiable constraints lead to more challenges when using prior differentiable optimization layers. This paper proposes a differentiable layer, named Differentiable Frank-Wolfe Layer (DFWLayer), by rolling out the Frank-Wolfe method, a well-known optimization algorithm which can solve constrained optimization problems without projections and Hessian matrix computations, thus leading to a efficient way of dealing with large-scale problems. Theoretically, we establish a bound on the suboptimality gap of the DFWLayer in the context of l1-norm constraints. Experimental assessments demonstrate that the DFWLayer not only attains competitive accuracy in solutions and gradients but also consistently adheres to constraints. Moreover, it surpasses the baselines in both forward and backward computational speeds.

arxiv情報

著者 Zixuan Liu,Liu Liu,Xueqian Wang,Peilin Zhao
発行日 2023-08-21 15:53:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク