要約
私たちは、スキル学習の物理学、つまりトレーニング中にニューラル ネットワークでスキルがどのように学習されるかを理解することを目的としています。
まず、ドミノ効果を観察することから始めます。つまり、スキルは順番に学習されますが、ドミノ カードが順番に落ちるのと同じように、一部のスキルは他のスキルの学習が完了した直後に学習を開始します。
ドミノ効果とスキル学習の関連する動作を理解するために、抽象化と単純化という物理学者のアプローチを採用します。
私たちは、現実性と単純性の間でトレードする、さまざまな複雑さを持つ 3 つのモデル (ジオメトリ モデル、リソース モデル、ドミノ モデル) を提案します。
Domino 効果はジオメトリ モデルで再現でき、そのリソース解釈がリソース モデルに影響を与え、さらに Domino モデルに簡略化できます。
これらのモデルは、さまざまなレベルの抽象化と単純化を示します。
それぞれは、スキル学習のいくつかの側面を研究するのに役立ちます。
ジオメトリ モデルは、ニューラル スケーリングの法則とオプティマイザーに関する興味深い洞察を提供します。
リソース モデルは、構成タスクの学習ダイナミクスに光を当てます。
Domino モデルはモジュール化の利点を明らかにしています。
これらのモデルは概念的に興味深いだけでなく、たとえば、チンチラのスケーリングの法則がジオメトリ モデルからどのように現れるかを示しますが、アルゴリズム開発を刺激することで実際にも役立ちます。たとえば、これらのおもちゃのモデルを動機として、単純なアルゴリズムがどのように変更されるかを示します。
、深層学習モデルのトレーニングを高速化できます。
要約(オリジナル)
We aim to understand physics of skill learning, i.e., how skills are learned in neural networks during training. We start by observing the Domino effect, i.e., skills are learned sequentially, and notably, some skills kick off learning right after others complete learning, similar to the sequential fall of domino cards. To understand the Domino effect and relevant behaviors of skill learning, we take physicists’ approach of abstraction and simplification. We propose three models with varying complexities — the Geometry model, the Resource model, and the Domino model, trading between reality and simplicity. The Domino effect can be reproduced in the Geometry model, whose resource interpretation inspires the Resource model, which can be further simplified to the Domino model. These models present different levels of abstraction and simplification; each is useful to study some aspects of skill learning. The Geometry model provides interesting insights into neural scaling laws and optimizers; the Resource model sheds light on the learning dynamics of compositional tasks; the Domino model reveals the benefits of modularity. These models are not only conceptually interesting — e.g., we show how Chinchilla scaling laws can emerge from the Geometry model, but also are useful in practice by inspiring algorithmic development — e.g., we show how simple algorithmic changes, motivated by these toy models, can speed up the training of deep learning models.
arxiv情報
著者 | Ziming Liu,Yizhou Liu,Eric J. Michaud,Jeff Gore,Max Tegmark |
発行日 | 2025-01-21 18:59:49+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google