要約
ニューラル スケーリングの法則は、モデル サイズがスケールアップするにつれてモデルのパフォーマンスがどのように向上するかを特徴づけます。
経験的な観察に触発されて、ニューラル スケーリングのリソース モデルを紹介します。
通常、タスクは複合的なものであるため、多くのサブタスクに分解でき、リソースをめぐって競合します (サブタスクに割り当てられたニューロンの数によって測定されます)。
おもちゃの問題については、次のことが経験的にわかります。 (1) サブタスクの損失は、割り当てられたニューロンに反比例します。
(2) 複合タスク内に複数のサブタスクが存在する場合、各サブタスクが獲得するリソースはモデルが大きくなるにつれて均一に増加し、獲得リソースの割合は一定に保たれます。
我々は、これらの発見が一般的に正しいと仮説を立て、一般的な複合タスクのニューラル スケーリング則を予測するモデルを構築します。これは、arXiv:2203.15556 で報告されているチンチラ モデルのニューラル スケーリング則を首尾よく再現します。
この論文で使用されるリソースの概念は、ニューラル ネットワークの特性評価と診断に役立つツールになると考えています。
要約(オリジナル)
Neural scaling laws characterize how model performance improves as the model size scales up. Inspired by empirical observations, we introduce a resource model of neural scaling. A task is usually composite hence can be decomposed into many subtasks, which compete for resources (measured by the number of neurons allocated to subtasks). On toy problems, we empirically find that: (1) The loss of a subtask is inversely proportional to its allocated neurons. (2) When multiple subtasks are present in a composite task, the resources acquired by each subtask uniformly grow as models get larger, keeping the ratios of acquired resources constants. We hypothesize these findings to be generally true and build a model to predict neural scaling laws for general composite tasks, which successfully replicates the neural scaling law of Chinchilla models reported in arXiv:2203.15556. We believe that the notion of resource used in this paper will be a useful tool for characterizing and diagnosing neural networks.
arxiv情報
著者 | Jinyeop Song,Ziming Liu,Max Tegmark,Jeff Gore |
発行日 | 2024-05-15 15:39:38+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google