Getting ViT in Shape: Scaling Laws for Compute-Optimal Model Design

要約

近年、与えられた計算時間に対して最適なモデルサイズ(パラメータ数)を導き出すために、スケーリング則が採用されています。我々は、このような手法を発展させ、幅や奥行きなどのモデルの形状を最適化し、視覚変換器への実装に成功した。形状を最適化した視覚変換器SoViTは、同等の計算量で事前学習されているにもかかわらず、そのサイズの2倍を超えるモデルと競合する結果を達成しました。例えば、ILSRCV2012において、SoViT-400m/14は90.3%の微調整精度を達成し、より大きなViT-g/14を上回り、同じ設定下でViT-G/14に迫る結果を得ており、推論コストも半分以下となっています。画像分類、キャプション付け、VQA、ゼロショット転送など、複数のタスクで徹底的な評価を行い、幅広い領域で本モデルの有効性を実証するとともに、限界を明らかにしました。全体として、我々の発見は、視覚モデルをやみくもにスケールアップするという一般的なアプローチに挑戦し、より情報に基づいたスケールアップへの道を開くものである。

要約(オリジナル)

Scaling laws have been recently employed to derive compute-optimal model size (number of parameters) for a given compute duration. We advance and refine such methods to infer compute-optimal model shapes, such as width and depth, and successfully implement this in vision transformers. Our shape-optimized vision transformer, SoViT, achieves results competitive with models that exceed twice its size, despite being pre-trained with an equivalent amount of compute. For example, SoViT-400m/14 achieves 90.3% fine-tuning accuracy on ILSRCV2012, surpassing the much larger ViT-g/14 and approaching ViT-G/14 under identical settings, with also less than half the inference cost. We conduct a thorough evaluation across multiple tasks, such as image classification, captioning, VQA and zero-shot transfer, demonstrating the effectiveness of our model across a broad range of domains and identifying limitations. Overall, our findings challenge the prevailing approach of blindly scaling up vision models and pave a path for a more informed scaling.

arxiv情報

著者 Ibrahim Alabdulmohsin,Xiaohua Zhai,Alexander Kolesnikov,Lucas Beyer
発行日 2023-06-02 10:25:27+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG, I.2.10 パーマリンク