要約
勾配が安価またはより利用可能であるいくつかの補助的な副関数 $h(x)$ へのアクセスを考慮して、勾配の計算に費用がかかるか、可用性が限られているターゲット関数 $f(x)$ を最小化するという基本的な最適化の問題を調査します。
この定式化は、i) SGD でのバッチの再利用、ii) 転移学習、iii) 連合学習、iv) 圧縮モデル/ドロップアウトによるトレーニングなど、実際に関連する多くの設定を捉えています。
これらすべての設定と、このフレームワークから恩恵を受けることができるターゲットとサイド情報の間のヘッセ行列の類似性に関する仮定のみを使用して証明します。
要約(オリジナル)
We investigate the fundamental optimization question of minimizing a target function $f(x)$ whose gradients are expensive to compute or have limited availability, given access to some auxiliary side function $h(x)$ whose gradients are cheap or more available. This formulation captures many settings of practical relevance such as i) re-using batches in SGD, ii) transfer learning, iii) federated learning, iv) training with compressed models/dropout, etc. We propose two generic new algorithms which are applicable in all these settings and prove using only an assumption on the Hessian similarity between the target and side information that we can benefit from this framework.
arxiv情報
著者 | El Mahdi Chayti,Sai Praneeth Karimireddy |
発行日 | 2023-03-13 17:59:40+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google