要約
カーネル メソッドは、機械学習における非線形予測モデルの人気のあるクラスです。
カーネル モデルを学習するためのスケーラブルなアルゴリズムは本質的に反復的である必要がありますが、調整が不十分なために収束が遅くなる可能性があります。
スペクトル プリコンディショニングは、カーネル モデルをトレーニングするためのこのような反復アルゴリズムの収束を高速化する重要なツールです。
ただし、スペクトル プリコンディショナーの計算と保存にはコストがかかり、計算とストレージのオーバーヘッドが大きくなり、大規模なデータセットの問題にカーネル メソッドを適用できなくなる可能性があります。
スペクトル プリコンディショナーの Nystrom 近似は、多くの場合、計算と保存が安価であり、実際のアプリケーションで成功することが実証されています。
このペーパーでは、このような近似プリコンディショナーを使用する場合のトレードオフを分析します。
具体的には、対数サイズのサンプル (データセットのサイズの関数として) により、Nystrom ベースの近似プリコンディショナーが正確なプリコンディショナーとほぼ同様に勾配降下を加速できると同時に、計算とストレージのオーバーヘッドも削減できることを示します。
要約(オリジナル)
Kernel methods are a popular class of nonlinear predictive models in machine learning. Scalable algorithms for learning kernel models need to be iterative in nature, but convergence can be slow due to poor conditioning. Spectral preconditioning is an important tool to speed-up the convergence of such iterative algorithms for training kernel models. However computing and storing a spectral preconditioner can be expensive which can lead to large computational and storage overheads, precluding the application of kernel methods to problems with large datasets. A Nystrom approximation of the spectral preconditioner is often cheaper to compute and store, and has demonstrated success in practical applications. In this paper we analyze the trade-offs of using such an approximated preconditioner. Specifically, we show that a sample of logarithmic size (as a function of the size of the dataset) enables the Nystrom-based approximated preconditioner to accelerate gradient descent nearly as well as the exact preconditioner, while also reducing the computational and storage overheads.
arxiv情報
著者 | Amirhesam Abedsoltan,Parthe Pandit,Luis Rademacher,Mikhail Belkin |
発行日 | 2024-01-23 16:34:53+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google