要約
ニューラル スケーリングの法則はさまざまな領域で観察されていますが、これがなぜ起こるのかについては、これまでのところ明確な理解はありません。
最近の理論では、損失べき乗則は自然言語などの領域で観察されるべき乗則であるジップの法則から生じることが示唆されています。
ある理論では、Zipf 分散タスク量子が頻度の降順で学習されると、言語スケーリング則が現れることが示唆されています。
この論文では、言語モデル スケーリングの理論を使用して、強化学習アルゴリズムである AlphaZero のべき乗則スケーリングを検証します。
私たちは、トレーニングおよび推論データにおけるゲームの状態が、環境のツリー構造から生じることが知られているジップの法則に従ってスケーリングすることを発見し、スケーリングの法則とジップの法則の指数の間の相関を調べます。
量子スケーリング理論と一致して、たとえこの順序がモデリングの複雑さに反比例するとしても、エージェントは周波数の降順で状態損失を最適化することがわかります。
また、逆スケーリング、つまりモデルがサイズとともに改善されないことは、ゲーム終了の状態が最も頻繁に発生する状態の 1 つである異常な Zipf 曲線と相関していることもわかりました。
私たちは、大規模なモデルがこれらの重要性の低い状態に焦点を移し、ゲーム初期の重要な状態の理解を犠牲にするという証拠を示します。
要約(オリジナル)
Neural scaling laws are observed in a range of domains, to date with no clear understanding of why they occur. Recent theories suggest that loss power laws arise from Zipf’s law, a power law observed in domains like natural language. One theory suggests that language scaling laws emerge when Zipf-distributed task quanta are learned in descending order of frequency. In this paper we examine power-law scaling in AlphaZero, a reinforcement learning algorithm, using a theory of language-model scaling. We find that game states in training and inference data scale with Zipf’s law, which is known to arise from the tree structure of the environment, and examine the correlation between scaling-law and Zipf’s-law exponents. In agreement with quanta scaling theory, we find that agents optimize state loss in descending order of frequency, even though this order scales inversely with modelling complexity. We also find that inverse scaling, the failure of models to improve with size, is correlated with unusual Zipf curves where end-game states are among the most frequent states. We show evidence that larger models shift their focus to these less-important states, sacrificing their understanding of important early-game states.
arxiv情報
著者 | Oren Neumann,Claudius Gros |
発行日 | 2024-12-16 16:59:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google