Broken Neural Scaling Laws

要約

深層ニューラル ネットワークのスケーリング動作を正確にモデル化して外挿する、滑らかに壊れたべき法則関数形式を提示します (つまり、トレーニングに使用される計算量、モデル パラメーターの数、トレーニング データセットのサイズ、またはアップストリームに応じて、関心のある評価メトリックがどのように変化するか)。
ゼロショット、プロンプト、および微調整された設定で、さまざまなアーキテクチャ、および大規模で多様なアップストリームおよびダウンストリーム タスク セット内のさまざまなタスクごとにパフォーマンスが異なります。
このセットには、大規模なビジョン、言語、オーディオ、ビデオ、拡散生成モデリング、マルチモーダル学習、対照学習、AI 調整、ロボティクス、分布外汎化、継続学習、算術、教師なし/自己教師あり学習、および強化が含まれます。
学習 (シングル エージェントとマルチ エージェント)。
ニューラル スケーリング動作の他の関数形式と比較すると、この関数形式は、このセットでかなり正確なスケーリング動作の外挿を生成します。
さらに、この関数形式は、他の関数形式では表現できないスケーリング動作を正確にモデル化し推定します。たとえば、二重降下などの現象のスケーリング動作に存在する非単調遷移や、
算数などのタスク。
最後に、この関数形式を使用して、スケーリング動作の予測可能性の限界に関する洞察を収集します。
コードは https://github.com/ethancaballero/broken_neural_scaling_laws で入手できます。

要約(オリジナル)

We present a smoothly broken power law functional form that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, training dataset size, or upstream performance varies) for various architectures and for each of various tasks within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. This set includes large-scale vision, language, audio, video, diffusion generative modeling, multimodal learning, contrastive learning, AI alignment, robotics, out-of-distribution generalization, continual learning, arithmetic, unsupervised/self-supervised learning, and reinforcement learning (single agent and multi-agent). When compared to other functional forms for neural scaling behavior, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set. Moreover, this functional form accurately models and extrapolates scaling behavior that other functional forms are incapable of expressing such as the non-monotonic transitions present in the scaling behavior of phenomena such as double descent and the delayed, sharp inflection points present in the scaling behavior of tasks such as arithmetic. Lastly, we use this functional form to glean insights about the limit of the predictability of scaling behavior. Code is available at https://github.com/ethancaballero/broken_neural_scaling_laws

arxiv情報

著者 Ethan Caballero,Kshitij Gupta,Irina Rish,David Krueger
発行日 2023-02-15 18:58:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク