要約
学習されたオプティマイザーはメタ学習の重要なコンポーネントです。
スケーラブルな学習型オプティマイザーの最近の進歩により、さまざまなタスクにおいて手作業で設計されたオプティマイザーよりも優れたパフォーマンスが実証されています。
ただし、これらのモデルには、不安定な学習曲線、目に見えないタスクやネットワーク アーキテクチャを処理する能力の制限、制御が難しい動作、タスクの微調整におけるパフォーマンスの低下などの特定の特性があり、その広範な採用が妨げられています。
スケーラブルな学習型オプティマイザーの一般化の問題に取り組むために、大規模な言語モデルやビジョン モデルで使用されるハード プロンプト チューニングと結果選択手法の最近の進歩に触発されたハイブリッド更新ベース (HUB) 最適化戦略を提案します。
このアプローチは、手動で設計されたオプティマイザーまたは学習されたオプティマイザーを含むあらゆるタスクに簡単に適用できます。
手動設計のオプティマイザーをハイブリッド アプローチの 2 番目のコンポーネントとして組み込むことで、学習されたオプティマイザーの利点を維持しながら、トレーニング プロセスを安定させ、さらに重要なことに、テストのパフォーマンスを向上させることができます。
私たちは、ゼロからの 13 のトレーニングと 4 つの微調整設定で構成される合計 17 のタスクを通じて設計を検証します。
これらのタスクはモデル サイズ、アーキテクチャ、またはデータセット サイズが異なり、競合するオプティマイザーはハイパーパラメーター調整されています。
当社はタスクの 94% において競合他社を上回り、より優れたテスト パフォーマンスを実現しています。
さらに、学習されたオプティマイザーの動作と継承された特性に対するハイブリッド戦略の潜在的な影響を調べるために理論分析を実行します。
要約(オリジナル)
Learned optimizers are a crucial component of meta-learning. Recent advancements in scalable learned optimizers have demonstrated their superior performance over hand-designed optimizers in various tasks. However, certain characteristics of these models, such as an unstable learning curve, limited ability to handle unseen tasks and network architectures, difficult-to-control behaviours, and poor performance in fine-tuning tasks impede their widespread adoption. To tackle the issue of generalization in scalable learned optimizers, we propose a hybrid-update-based (HUB) optimization strategy inspired by recent advancements in hard prompt tuning and result selection techniques used in large language and vision models. This approach can be easily applied to any task that involves hand-designed or learned optimizer. By incorporating hand-designed optimizers as the second component in our hybrid approach, we are able to retain the benefits of learned optimizers while stabilizing the training process and, more importantly, improving testing performance. We validate our design through a total of 17 tasks, consisting of thirteen training from scratch and four fine-tuning settings. These tasks vary in model sizes, architectures, or dataset sizes, and the competing optimizers are hyperparameter-tuned. We outperform all competitors in 94% of the tasks with better testing performance. Furthermore, we conduct a theoretical analysis to examine the potential impact of our hybrid strategy on the behaviours and inherited traits of learned optimizers.
arxiv情報
著者 | Gaole Dai,Wei Wu,Ziyu Wang,Jie Fu,Shanghang Zhang,Tiejun Huang |
発行日 | 2023-05-31 16:33:35+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google