spred: Solving $L_1$ Penalty with SGD

要約

単純な再パラメータ化と単純な確率的勾配降下法を使用して、$L_1$ 制約を持つ一般的な微分可能な目的を最小化することを提案します。
私たちの提案は、$L_1$ ペナルティが重み減衰を伴う微分​​可能な再パラメータ化と同等である可能性があるという以前のアイデアを直接一般化したものです。
提案された手法 \textit{spred} が $L_1$ の厳密微分可能ソルバーであること、および再パラメータ化トリックが一般的な非凸関数に対して完全に「無害」であることを証明します。
実際に、我々は、(1) 遺伝子選択タスクを実行するためのスパース ニューラル ネットワークのトレーニング (非常に高次元の空間で関連する特徴を見つけることを含む)、および (2) 以前の適用の試みであるニューラル ネットワーク圧縮タスクにおけるこの方法の有用性を実証します。
$L_1$ ペナルティは失敗しました。
概念的には、私たちの結果は深層学習のスパース性と従来の統計学習の間のギャップを埋めるものです。

要約(オリジナル)

We propose to minimize a generic differentiable objective with $L_1$ constraint using a simple reparametrization and straightforward stochastic gradient descent. Our proposal is the direct generalization of previous ideas that the $L_1$ penalty may be equivalent to a differentiable reparametrization with weight decay. We prove that the proposed method, \textit{spred}, is an exact differentiable solver of $L_1$ and that the reparametrization trick is completely “benign’ for a generic nonconvex function. Practically, we demonstrate the usefulness of the method in (1) training sparse neural networks to perform gene selection tasks, which involves finding relevant features in a very high dimensional space, and (2) neural network compression task, to which previous attempts at applying the $L_1$-penalty have been unsuccessful. Conceptually, our result bridges the gap between the sparsity in deep learning and conventional statistical learning.

arxiv情報

著者 Liu Ziyin,Zihao Wang
発行日 2023-07-12 15:09:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク