Navigating Scaling Laws: Accelerating Vision Transformer’s Training via Adaptive Strategies

要約

近年、ディープラーニングの最先端は、膨大なデータで事前に訓練された非常に大規模なモデルによって占められている。パラダイムは非常にシンプルだ:より多くの計算リソースを(最適に)投入することが、より優れた性能につながり、さらに予測も可能である。所望の計算レベルに対するネットワークの性能を正確に予測するニューラル・スケーリング則が導出されている。これは、「計算最適」モデル、すなわち、学習中に与えられた計算レベルを最適に割り当てて性能を最大化するモデルの概念につながる。本研究では、「適応型」モデル、すなわちトレーニング中に形状を変化させることができるモデルを許容することで、最適性の概念を拡張する。形状を適応させることで、基礎となるスケーリング則の間を最適に行き来することができ、与えられた目標性能に到達するために必要な計算量を大幅に削減することができる。我々は、視覚タスクとVision Transformersファミリーに焦点を当て、パッチサイズと幅が適応的な形状パラメータとして自然に機能する。スケーリング則に導かれて、「静的」な対応モデルに勝る計算最適な適応モデルを設計できることを示す。

要約(オリジナル)

In recent years, the state-of-the-art in deep learning has been dominated by very large models that have been pre-trained on vast amounts of data. The paradigm is very simple: Investing more computational resources (optimally) leads to better performance, and even predictably so; neural scaling laws have been derived that accurately forecast the performance of a network for a desired level of compute. This leads to the notion of a ‘compute-optimal’ model, i.e. a model that allocates a given level of compute during training optimally to maximise performance. In this work, we extend the concept of optimality by allowing for an ‘adaptive’ model, i.e. a model that can change its shape during the course of training. By allowing the shape to adapt, we can optimally traverse between the underlying scaling laws, leading to a significant reduction in the required compute to reach a given target performance. We focus on vision tasks and the family of Vision Transformers, where the patch size as well as the width naturally serve as adaptive shape parameters. We demonstrate that, guided by scaling laws, we can design compute-optimal adaptive models that beat their ‘static’ counterparts.

arxiv情報

著者 Sotiris Anagnostidis,Gregor Bachmann,Thomas Hofmann
発行日 2023-11-06 16:20:28+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク