要約
深層ニューラル ネットワークのスケーリング動作を正確にモデル化して外挿する (つまり、関心のある評価指標が計算量に応じてどのように変化するか)
トレーニングに使用される、モデル パラメーターの数、トレーニング データセットのサイズ、モデル入力サイズ、トレーニング ステップの数、またはアップストリームのパフォーマンスはさまざまです) さまざまなアーキテクチャ、およびアップストリームとダウンストリームのタスクの大規模で多様なセット内のさまざまなタスクのそれぞれについて、ゼロで
-ショット、プロンプト、および微調整された設定。
このセットには、大規模なビジョン、言語、オーディオ、ビデオ、拡散、生成モデリング、マルチモーダル学習、対照学習、AI 調整、ロボティクス、分布外 (OOD) 一般化、継続学習、転移学習、不確実性の推定 / キャリブレーションが含まれます
、分布外検出、敵対的ロバスト性、蒸留、スパース性、検索、量子化、刈り込み、分子、コンピューター プログラミング/コーディング、数学の単語問題、「創発的」「相転移/変化」、算術、教師なし/自己教師あり学習
、および強化学習 (シングル エージェントおよびマルチ エージェント)。
ニューラル スケーリング動作の他の関数形式と比較すると、この関数形式は、このセットでかなり正確なスケーリング動作の外挿を生成します。
さらに、この関数形式は、他の関数形式では表現できないスケーリング動作を正確にモデル化し推定します。たとえば、二重降下などの現象のスケーリング動作に存在する非単調遷移や、
算数などのタスク。
最後に、この関数形式を使用して、スケーリング動作の予測可能性の限界に関する洞察を収集します。
コードは https://github.com/ethancaballero/broken_neural_scaling_laws で入手できます。
要約(オリジナル)
We present a smoothly broken power law functional form (referred to by us as a Broken Neural Scaling Law (BNSL)) that accurately models and extrapolates the scaling behaviors of deep neural networks (i.e. how the evaluation metric of interest varies as the amount of compute used for training, number of model parameters, training dataset size, model input size, number of training steps, or upstream performance varies) for various architectures and for each of various tasks within a large and diverse set of upstream and downstream tasks, in zero-shot, prompted, and fine-tuned settings. This set includes large-scale vision, language, audio, video, diffusion, generative modeling, multimodal learning, contrastive learning, AI alignment, robotics, out-of-distribution (OOD) generalization, continual learning, transfer learning, uncertainty estimation / calibration, out-of-distribution detection, adversarial robustness, distillation, sparsity, retrieval, quantization, pruning, molecules, computer programming/coding, math word problems, ‘emergent’ ‘phase transitions / changes’, arithmetic, unsupervised/self-supervised learning, and reinforcement learning (single agent and multi-agent). When compared to other functional forms for neural scaling behavior, this functional form yields extrapolations of scaling behavior that are considerably more accurate on this set. Moreover, this functional form accurately models and extrapolates scaling behavior that other functional forms are incapable of expressing such as the non-monotonic transitions present in the scaling behavior of phenomena such as double descent and the delayed, sharp inflection points present in the scaling behavior of tasks such as arithmetic. Lastly, we use this functional form to glean insights about the limit of the predictability of scaling behavior. Code is available at https://github.com/ethancaballero/broken_neural_scaling_laws
arxiv情報
著者 | Ethan Caballero,Kshitij Gupta,Irina Rish,David Krueger |
発行日 | 2023-03-27 17:54:47+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google