要約
深層学習ニューラル ネットワーク モデルは、問題領域に適応するのに十分な大きさであると同時に、勾配降下中にトレーニング データの過学習を避けるのに十分な大きさである必要があります。
これらの競合する需要のバランスをとるために、トランスフォーマーなどのオーバープロビジョニングされたディープ ラーニング モデルは、大規模なデータ セットで単一エポックに対してトレーニングされるため、コンピューティング リソースとトレーニング データの両方で非効率的になります。
これらの非効率性に対応して、学習理論を利用して、モデル サイズの適応的縮小をインターリーブして汎化誤差を最小限に抑えるアルゴリズムであるオッカム勾配降下法と、フィッティング誤差を最小限に抑えるモデルの重みの勾配降下法を導き出します。
対照的に、従来の勾配降下法では、汎化誤差を考慮せずに、フィッティング誤差を貪欲に最小限に抑えます。
私たちのアルゴリズムは、ニューラル ネットワークの重み空間とトポロジカル サイズを修正することなく同時に下降し、精度、計算、モデル圧縮の点で、トレーニング後の枝刈りの有無にかかわらず、従来の勾配降下法を上回るパフォーマンスを実験で効果的に発揮します。
要約(オリジナル)
Deep learning neural network models must be large enough to adapt to their problem domain, while small enough to avoid overfitting training data during gradient descent. To balance these competing demands, overprovisioned deep learning models such as transformers are trained for a single epoch on large data sets, and hence inefficient with both computing resources and training data. In response to these inefficiencies, we exploit learning theory to derive Occam Gradient Descent, an algorithm that interleaves adaptive reduction of model size to minimize generalization error, with gradient descent on model weights to minimize fitting error. In contrast, traditional gradient descent greedily minimizes fitting error without regard to generalization error. Our algorithm simultaneously descends the space of weights and topological size of any neural network without modification, and is effective in our experiments in outperforming traditional gradient descent with or without post-train pruning in accuracy, compute and model compression.
arxiv情報
著者 | B. N. Kausik |
発行日 | 2024-05-30 15:58:22+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google