要約
最適化の学習 (L2O) の人気が高まっており、データ駆動型のアプローチによってオプティマイザーの設計が自動化されています。
ただし、現在の L2O メソッドは、少なくとも 2 つの点で一般化のパフォーマンスが低いという問題を抱えていることがよくあります。
);
(ii) オプティマイザーによってトレーニングされた、オプティマイザー (機械学習モデルとしてのそれ自体) の、目に見えないデータに対する精度 (optimizee の一般化、または「一般化の学習」) に関するテスト パフォーマンス。
オプティマイザの一般化は最近研究されていますが、オプティマイザの一般化 (または一般化の学習) は、このホワイト ペーパーの目的である L2O コンテキストでは厳密には研究されていません。
最初にローカルエントロピーとヘッセ行列の間の暗黙の接続を理論的に確立し、したがって、一般化可能なオプティマイザーの手作りの設計におけるそれらの役割を、損失関数のランドスケープの平坦性の同等のメトリックとして統一します。
次に、オプティマイザーが一般化することを学習するようにメタトレーニングするために、これら 2 つのメトリクスを平坦性を意識したレギュラーライザーとして L2O フレームワークに組み込むことを提案し、そのような一般化能力が L2O メタトレーニング プロセス中に学習され、その後に変換されることを理論的に示します。
最適化損失関数。
広範な実験により、複数の洗練された L2O モデルと多様な最適化で大幅に改善された一般化により、提案の有効性が一貫して検証されます。
コードは https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropy で入手できます。
要約(オリジナル)
Learning to optimize (L2O) has gained increasing popularity, which automates the design of optimizers by data-driven approaches. However, current L2O methods often suffer from poor generalization performance in at least two folds: (i) applying the L2O-learned optimizer to unseen optimizees, in terms of lowering their loss function values (optimizer generalization, or “generalizable learning of optimizers’); and (ii) the test performance of an optimizee (itself as a machine learning model), trained by the optimizer, in terms of the accuracy over unseen data (optimizee generalization, or “learning to generalize’). While the optimizer generalization has been recently studied, the optimizee generalization (or learning to generalize) has not been rigorously studied in the L2O context, which is the aim of this paper. We first theoretically establish an implicit connection between the local entropy and the Hessian, and hence unify their roles in the handcrafted design of generalizable optimizers as equivalent metrics of the landscape flatness of loss functions. We then propose to incorporate these two metrics as flatness-aware regularizers into the L2O framework in order to meta-train optimizers to learn to generalize, and theoretically show that such generalization ability can be learned during the L2O meta-training process and then transformed to the optimizee loss function. Extensive experiments consistently validate the effectiveness of our proposals with substantially improved generalization on multiple sophisticated L2O models and diverse optimizees. Our code is available at: https://github.com/VITA-Group/Open-L2O/tree/main/Model_Free_L2O/L2O-Entropy.
arxiv情報
著者 | Junjie Yang,Tianlong Chen,Mingkang Zhu,Fengxiang He,Dacheng Tao,Yingbin Liang,Zhangyang Wang |
発行日 | 2023-03-28 17:57:05+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google