Making Scalable Meta Learning Practical

要約

機械学習プログラムにおけるさまざまな帰納的バイアスを学習する柔軟性があるにもかかわらず、メタ学習 (つまり学習することの学習) は、莫大なコンピューティング/メモリ コスト、トレーニングの不安定性、および効率的な分散トレーニングの欠如により、スケーラビリティが低いことが長い間認識されてきました。
サポート。
この研究では、陰的微分アルゴリズムとシステムの両方の進歩を組み合わせた SAMA を導入することで、スケーラブルなメタ学習を実用化することに焦点を当てています。
具体的には、SAMA は、メタ学習プログラムの基本レベルで幅広い適応オプティマイザを柔軟にサポートすると同時に、2 次勾配情報の明示的な計算を回避し、1 次勾配に対して実装された効率的な分散トレーニング手法を活用することで計算負荷を軽減するように設計されています。

複数の大規模メタ学習ベンチマークで評価した SAMA は、他のベースライン メタ学習アルゴリズムと比較して、シングル/マルチ GPU セットアップでそれぞれ最大 1.7/4.8 倍のスループット増加と 2.0/3.8 倍のメモリ消費量の減少を示しています。
さらに、SAMA ベースのデータ最適化が BERT および RoBERTa 大規模言語モデルによるテキスト分類精度の一貫した向上につながり、画像分類タスクにおける小規模および大規模のデータ プルーニングで最先端の結果を達成することを示します。
、言語と視覚の領域にわたるスケーラブルなメタ学習の実際的な適用可能性を示しています。

要約(オリジナル)

Despite its flexibility to learn diverse inductive biases in machine learning programs, meta learning (i.e., learning to learn) has long been recognized to suffer from poor scalability due to its tremendous compute/memory costs, training instability, and a lack of efficient distributed training support. In this work, we focus on making scalable meta learning practical by introducing SAMA, which combines advances in both implicit differentiation algorithms and systems. Specifically, SAMA is designed to flexibly support a broad range of adaptive optimizers in the base level of meta learning programs, while reducing computational burden by avoiding explicit computation of second-order gradient information, and exploiting efficient distributed training techniques implemented for first-order gradients. Evaluated on multiple large-scale meta learning benchmarks, SAMA showcases up to 1.7/4.8x increase in throughput and 2.0/3.8x decrease in memory consumption respectively on single-/multi-GPU setups compared to other baseline meta learning algorithms. Furthermore, we show that SAMA-based data optimization leads to consistent improvements in text classification accuracy with BERT and RoBERTa large language models, and achieves state-of-the-art results in both small- and large-scale data pruning on image classification tasks, demonstrating the practical applicability of scalable meta learning across language and vision domains.

arxiv情報

著者 Sang Keun Choe,Sanket Vaibhav Mehta,Hwijeen Ahn,Willie Neiswanger,Pengtao Xie,Emma Strubell,Eric Xing
発行日 2023-10-23 14:16:49+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク