Re-parameterizing Your Optimizers rather than Architectures

要約

ニューラルネットワークのうまく設計された構造は、モデルに組み込まれた事前知識を反映しています。しかし、モデルによって様々な事前知識を持つにもかかわらず、我々はSGDのようなモデルにとらわれない最適化器を用いて学習させることに慣れきっている。本論文では、モデル固有のハイパーパラメータに従って勾配を修正することにより、モデル固有の事前知識を最適化器に取り込むことを提案する。このような手法は、勾配再パラメータ化と呼ばれ、オプティマイザはRepOptimizersと名づけられる。モデル構造が極めて単純であるため、VGG形式のプレーンモデルに焦点を当て、RepOpt-VGGと呼ばれるRepOptimizerで学習したこのような単純なモデルが、最近のよく設計されたモデルと同等かそれ以上の性能を示すことを紹介する。RepOpt-VGGは、構造が単純で、推論速度が速く、学習効率が高いため、実用的な観点からも好ましいベースモデルである。また、学習時に余分な構造を構築してモデルに事前分布を追加する構造的再パラメタリゼーションと比較して、RepOptimizerは余分な前進・後退計算が不要で、量子化の問題も解決しています。モデル構造設計の領域を超えて、さらなる研究のきっかけとなることを期待しています。コードとモデル ୧⃛(๑⃙⃘◡̈๑⃙⃘)

要約(オリジナル)

The well-designed structures in neural networks reflect the prior knowledge incorporated into the models. However, though different models have various priors, we are used to training them with model-agnostic optimizers such as SGD. In this paper, we propose to incorporate model-specific prior knowledge into optimizers by modifying the gradients according to a set of model-specific hyper-parameters. Such a methodology is referred to as Gradient Re-parameterization, and the optimizers are named RepOptimizers. For the extreme simplicity of model structure, we focus on a VGG-style plain model and showcase that such a simple model trained with a RepOptimizer, which is referred to as RepOpt-VGG, performs on par with or better than the recent well-designed models. From a practical perspective, RepOpt-VGG is a favorable base model because of its simple structure, high inference speed and training efficiency. Compared to Structural Re-parameterization, which adds priors into models via constructing extra training-time structures, RepOptimizers require no extra forward/backward computations and solve the problem of quantization. We hope to spark further research beyond the realms of model structure design. Code and models \url{https://github.com/DingXiaoH/RepOptimizers}.

arxiv情報

著者 Xiaohan Ding,Honghao Chen,Xiangyu Zhang,Kaiqi Huang,Jungong Han,Guiguang Ding
発行日 2023-02-06 11:06:56+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CV, cs.LG パーマリンク