Occam Gradient Descent

要約

深層学習ニューラル ネットワーク モデルは、問題領域に適応するのに十分な大きさであると同時に、勾配降下中にトレーニング データの過学習を避けるのに十分な大きさである必要があります。
これらの競合する需要のバランスをとるために、トランスフォーマーなどのオーバープロビジョニングされたディープ ラーニング モデルは、大規模なデータ セットで単一エポックに対してトレーニングされるため、コンピューティング リソースとトレーニング データの両方で非効率的になります。
これらの非効率性に対応して、学習理論を利用して、モデル サイズの適応的縮小をインターリーブして汎化誤差を最小限に抑えるアルゴリズムであるオッカム勾配降下法と、フィッティング誤差を最小限に抑えるモデルの重みの勾配降下法を導き出します。
対照的に、従来の勾配降下法では、汎化誤差を考慮せずに、フィッティング誤差を貪欲に最小限に抑えます。
私たちのアルゴリズムは、ニューラル ネットワークの重み空間とトポロジカル サイズを修正することなく同時に下降し、画像分類実験において効果的であり、損失、計算、モデル サイズにおいてトレーニング後の枝刈りの有無にかかわらず、従来の勾配降下法を上回っています。
さらに、私たちのアルゴリズムを表形式のデータ分類に適用すると、さまざまなデータセットにわたって、オッカム勾配降下法でトレーニングされたニューラル ネットワークが、損失とモデル サイズの両方において、勾配降下法やランダム フォレストでトレーニングされたニューラル ネットワークよりも優れていることがわかりました。

要約(オリジナル)

Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification, and is effective in our image classification experiments in outperforming traditional gradient descent with or without post-train pruning in loss, compute and model size. Furthermore, applying our algorithm to tabular data classification we find that across a range of data sets, neural networks trained with Occam Gradient Descent outperform neural networks trained with gradient descent, as well as Random Forests, in both loss and model size.

arxiv情報

著者 B. N. Kausik
発行日 2024-07-17 14:35:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク