Fast training of large kernel models with delayed projections

要約

従来のカーネル マシンは、ニューラル ネットワークの成功を推進する重要な要素である大規模なデータセットとモデル サイズへの拡張において、歴史的に大きな課題に直面してきました。
このペーパーでは、データ サイズとモデル サイズの両方に合わせて効率的に拡張できるカーネル マシンを構築するための新しい方法論を紹介します。
私たちのアルゴリズムは、前条件付き確率的勾配降下法 (PSGD) に遅延投影を導入し、これまで実現可能であったよりもはるかに大規模なモデルのトレーニングを可能にし、カーネルベースの学習の実用的な限界を押し広げます。
私たちは複数のデータセットにわたってアルゴリズム、EigenPro4 を検証し、同等以上の分類精度を維持しながら、既存の方法よりも大幅にトレーニング速度が向上することを実証しました。

要約(オリジナル)

Classical kernel machines have historically faced significant challenges in scaling to large datasets and model sizes–a key ingredient that has driven the success of neural networks. In this paper, we present a new methodology for building kernel machines that can scale efficiently with both data size and model size. Our algorithm introduces delayed projections to Preconditioned Stochastic Gradient Descent (PSGD) allowing the training of much larger models than was previously feasible, pushing the practical limits of kernel-based learning. We validate our algorithm, EigenPro4, across multiple datasets, demonstrating drastic training speed up over the existing methods while maintaining comparable or better classification accuracy.

arxiv情報

著者 Amirhesam Abedsoltan,Siyuan Ma,Parthe Pandit,Mikhail Belkin
発行日 2024-11-25 18:42:13+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク