Mnemosyne: Learning to Train Transformers with Transformers

要約

複雑な機械学習 (ML) アーキテクチャをトレーニングするには、適切なオプティマイザーを選択してハイパーパラメーターを調整するという、計算と時間のかかるプロセスが必要です。
データから学習オプティマイザーを学習するという新しいパラダイムが、手作業で設計された ML オプティマイザーのより良い代替手段として登場しました。
私たちは、Performers を使用する Mnemosyne オプティマイザー、つまり暗黙的な低ランクのアテンション トランスフォーマーを提案します。
タスク固有のオプティマイザーを調整することなく、他のトランスフォーマーを含むニューラル ネットワーク アーキテクチャ全体をトレーニングする方法を学習できます。
私たちは、Mnemosyne が (a) 一般的な LSTM オプティマイザーよりも優れた一般化を行うこと、(b) 特に、標準 MLP でメタトレーニングされている間にビジョン トランスフォーマー (ViT) を正常にトレーニングできること、(c) ロボティクス アプリケーションでの収束を高速化するためにオプティマイザーを初期化できることを示します。
これらの結果により、Transformer を使用して、通常の Transformer トレーニングの課題に対処できる基本的な最適化モデルを構築できる可能性が開かれたと考えています。
私たちは、Mnemosyne によって使用されるコンパクトな連想記憶の広範な理論的分析によって結果を補完します。

要約(オリジナル)

Training complex machine learning (ML) architectures requires a compute and time consuming process of selecting the right optimizer and tuning its hyper-parameters. A new paradigm of learning optimizers from data has emerged as a better alternative to hand-designed ML optimizers. We propose Mnemosyne optimizer, that uses Performers: implicit low-rank attention Transformers. It can learn to train entire neural network architectures including other Transformers without any task-specific optimizer tuning. We show that Mnemosyne: (a) generalizes better than popular LSTM optimizer, (b) in particular can successfully train Vision Transformers (ViTs) while meta–trained on standard MLPs and (c) can initialize optimizers for faster convergence in Robotics applications. We believe that these results open the possibility of using Transformers to build foundational optimization models that can address the challenges of regular Transformer training. We complement our results with an extensive theoretical analysis of the compact associative memory used by Mnemosyne.

arxiv情報

著者 Deepali Jain,Krzysztof Marcin Choromanski,Avinava Dubey,Sumeet Singh,Vikas Sindhwani,Tingnan Zhang,Jie Tan
発行日 2023-06-15 14:20:59+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.LG パーマリンク