Memory-Reduced Meta-Learning with Guaranteed Convergence

要約

最適化ベースのメタ学習アプローチは、少量のデータのみを使用して新しいタスクに迅速に適応できる独自の機能により、ますます注目を集めています。
ただし、MAML、ANIL、およびそのバリアントなどの既存の最適化ベースのメタ学習アプローチは、一般に上位レベルの勾配推定にバックプロパゲーションを使用します。これには、履歴の下位レベルのパラメーター/勾配を使用する必要があるため、反復ごとに計算とメモリのオーバーヘッドが増加します。

この論文では、既存の最適化ベースのメタ学習アプローチと比較して、履歴パラメータ/勾配の使用を回避し、各反復でのメモリ コストを大幅に削減できるメタ学習アルゴリズムを提案します。
メモリの削減に加えて、提案したアルゴリズムが上位レベルの最適化の反復回数に応じて非線形に収束し、サンプリングされたタスクのバッチ サイズに応じて収束誤差が非線形に減衰することを証明します。
決定論的メタ学習という特定のケースでは、提案したアルゴリズムが正確な解に収束することも証明します。
さらに、アルゴリズムの計算量が $\mathcal{O}(\epsilon^{-1})$ のオーダーであることを定量化しました。これは、履歴パラメーター/勾配を使用しなくても、メタ学習での既存の収束結果と一致します。

メタ学習ベンチマークの実験結果により、提案したアルゴリズムの有効性が確認されました。

要約(オリジナル)

The optimization-based meta-learning approach is gaining increased traction because of its unique ability to quickly adapt to a new task using only small amounts of data. However, existing optimization-based meta-learning approaches, such as MAML, ANIL and their variants, generally employ backpropagation for upper-level gradient estimation, which requires using historical lower-level parameters/gradients and thus increases computational and memory overhead in each iteration. In this paper, we propose a meta-learning algorithm that can avoid using historical parameters/gradients and significantly reduce memory costs in each iteration compared to existing optimization-based meta-learning approaches. In addition to memory reduction, we prove that our proposed algorithm converges sublinearly with the iteration number of upper-level optimization, and the convergence error decays sublinearly with the batch size of sampled tasks. In the specific case in terms of deterministic meta-learning, we also prove that our proposed algorithm converges to an exact solution. Moreover, we quantify that the computational complexity of the algorithm is on the order of $\mathcal{O}(\epsilon^{-1})$, which matches existing convergence results on meta-learning even without using any historical parameters/gradients. Experimental results on meta-learning benchmarks confirm the efficacy of our proposed algorithm.

arxiv情報

著者 Honglin Yang,Ji Ma,Xiao Yu
発行日 2024-12-16 17:55:55+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.OC パーマリンク