First-order ANIL provably learns representations despite overparametrization

要約

メタ学習は、少数ショット分類と強化学習における経験的な成功により、最近大きな関心を集めています。
メタ学習手法は、以前のタスクからのデータを活用して、サンプル効率的な方法で新しいタスクを学習します。
特に、モデルに依存しない手法は、勾配降下法が新しいタスクにすぐに適応できる初期化ポイントを探します。
このような方法は、事前トレーニング中に共有表現を学習することでうまく機能することが経験的に示唆されていますが、そのような動作の理論的証拠は限られています。
さらに重要なことは、アーキテクチャの仕様に誤りがあるにもかかわらず、これらのメソッドが依然として共有構造を学習していることが示されていないことです。
この方向において、この研究は、無限数のタスクの制限において、線形 2 層ネットワーク アーキテクチャを備えた 1 次 ANIL が線形共有表現を首尾よく学習することを示しています。
この結果は、オーバーパラメータ化でも当てはまります。
共有表現の次元よりも大きな幅を持つと、漸近的に低ランクの解が得られます。
学習されたソリューションは、単一の勾配ステップ後の新しいタスクに対して良好な適応パフォーマンスをもたらします。
全体として、これは、一次 ANIL などのモデルに依存しないメソッドが共有表現をいかにうまく学習できるかを示しています。

要約(オリジナル)

Due to its empirical success in few-shot classification and reinforcement learning, meta-learning has recently received significant interest. Meta-learning methods leverage data from previous tasks to learn a new task in a sample-efficient manner. In particular, model-agnostic methods look for initialization points from which gradient descent quickly adapts to any new task. Although it has been empirically suggested that such methods perform well by learning shared representations during pretraining, there is limited theoretical evidence of such behavior. More importantly, it has not been shown that these methods still learn a shared structure, despite architectural misspecifications. In this direction, this work shows, in the limit of an infinite number of tasks, that first-order ANIL with a linear two-layer network architecture successfully learns linear shared representations. This result even holds with overparametrization; having a width larger than the dimension of the shared representations results in an asymptotically low-rank solution. The learned solution then yields a good adaptation performance on any new task after a single gradient step. Overall, this illustrates how well model-agnostic methods such as first-order ANIL can learn shared representations.

arxiv情報

著者 Oğuz Kaan Yüksel,Etienne Boursier,Nicolas Flammarion
発行日 2024-07-23 13:36:51+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク