Optimization Guarantees of Unfolded ISTA and ADMM Networks With Smooth Soft-Thresholding

要約

線形逆問題を解くことは、多くのアプリケーションで重要な役割を果たします。
これらの問題に効果的に対処するために、アルゴリズム展開ベースのモデル認識型データ駆動アプローチが大きな注目を集めています。
学習済み反復ソフトしきい値アルゴリズム (LISTA) と乗算器圧縮センシング ネットワークの交互方向法 (ADMM-CSNet) は、それぞれ ISTA アルゴリズムと ADMM アルゴリズムに基づいた 2 つの広く使用されているアプローチです。
この研究では、過剰パラメータ化された環境で滑らかなソフトしきい値を使用した LISTA や ADMM-CSNet などの有限層アンフォールド ネットワークに対する最適化の保証、つまり学習エポック数の増加に伴うほぼゼロのトレーニング損失の達成について研究します。
(OP) 体制。
これは、PL$^*$ で示される Polyak-Lojasiewicz 条件の修正バージョンを活用することで実現します。
損失ランドスケープの特定の領域内で PL$^*$ 条件を満たすと、勾配降下法ベースの方法を使用した初期化からの大域的最小値と指数関数的収束が確実に存在します。
したがって、これらの展開されたネットワーク上で、PL$^*$ 条件が成立するための条件を、ネットワーク幅とトレーニング サンプルの数に関して提供します。
これは、これらのネットワークのヘシアン スペクトル ノルムを導出することで達成されます。
さらに、トレーニング サンプル数のしきい値は、ネットワーク幅の増加に伴って増加することを示します。
さらに、展開されたネットワークのトレーニング サンプルのしきい値を、滑らかなソフトしきい値の非線形性を持つ標準の完全接続フィードフォワード ネットワーク (FFNN) のしきい値と比較します。
アンフォールドネットワークは FFNN よりも高いしきい値を持つことを証明します。
したがって、展開されたネットワークでは FFNN よりも高い予想誤差が期待できます。

要約(オリジナル)

Solving linear inverse problems plays a crucial role in numerous applications. Algorithm unfolding based, model-aware data-driven approaches have gained significant attention for effectively addressing these problems. Learned iterative soft-thresholding algorithm (LISTA) and alternating direction method of multipliers compressive sensing network (ADMM-CSNet) are two widely used such approaches, based on ISTA and ADMM algorithms, respectively. In this work, we study optimization guarantees, i.e., achieving near-zero training loss with the increase in the number of learning epochs, for finite-layer unfolded networks such as LISTA and ADMM-CSNet with smooth soft-thresholding in an over-parameterized (OP) regime. We achieve this by leveraging a modified version of the Polyak-Lojasiewicz, denoted PL$^*$, condition. Satisfying the PL$^*$ condition within a specific region of the loss landscape ensures the existence of a global minimum and exponential convergence from initialization using gradient descent based methods. Hence, we provide conditions, in terms of the network width and the number of training samples, on these unfolded networks for the PL$^*$ condition to hold. We achieve this by deriving the Hessian spectral norm of these networks. Additionally, we show that the threshold on the number of training samples increases with the increase in the network width. Furthermore, we compare the threshold on training samples of unfolded networks with that of a standard fully-connected feed-forward network (FFNN) with smooth soft-thresholding non-linearity. We prove that unfolded networks have a higher threshold value than FFNN. Consequently, one can expect a better expected error for unfolded networks than FFNN.

arxiv情報

著者 Shaik Basheeruddin Shah,Pradyumna Pradhan,Wei Pu,Ramunaidu Randhi,Miguel R. D. Rodrigues,Yonina C. Eldar
発行日 2023-09-12 13:03:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, eess.SP パーマリンク