要約
勾配ベースのメタ学習アルゴリズムは、限られたデータを使用して新しいタスクでモデルをトレーニングできる機能で人気を集めています。
経験的観察によると、このようなアルゴリズムはタスク間で共有される表現を学習でき、これがアルゴリズムの成功の重要な要素とみなされます。
しかし、学習ダイナミクスと共有表現の起源についての深い理論的理解は未開発のままです。
この研究では、教師と生徒のシナリオにおけるストリーミング タスクでトレーニングされた非線形 2 層ニューラル ネットワークのメタ学習ダイナミクスを調査します。
統計物理解析のレンズを通して、メタトレーニング プロセスの巨視的な動作、共有表現の形成、新しいタスクにおけるモデルの一般化能力を特徴付けます。
この分析では、学習アルゴリズムの特定のハイパーパラメーターの選択の重要性も指摘しています。
要約(オリジナル)
Gradient-based meta-learning algorithms have gained popularity for their ability to train models on new tasks using limited data. Empirical observations indicate that such algorithms are able to learn a shared representation across tasks, which is regarded as a key factor in their success. However, the in-depth theoretical understanding of the learning dynamics and the origin of the shared representation remains underdeveloped. In this work, we investigate the meta-learning dynamics of the non-linear two-layer neural networks trained on streaming tasks in the teach-student scenario. Through the lens of statistical physics analysis, we characterize the macroscopic behavior of the meta-training processes, the formation of the shared representation, and the generalization ability of the model on new tasks. The analysis also points to the importance of the choice of certain hyper-parameters of the learning algorithms.
arxiv情報
著者 | Hui Wang,Cho Tung Yip,Bo Li |
発行日 | 2024-08-22 16:59:32+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google