要約
ニューラル カーネルは、多様で非標準的なデータ モダリティでのパフォーマンスを大幅に向上させましたが、以前はアプリケーションが小さなデータセットに限定されていたため、より多くの計算が必要でした。
この作業では、多くの GPU で計算を大規模に並列化することでこれに対処します。
これを分散型の前処理付き共役勾配アルゴリズムと組み合わせて、大規模 (つまり、最大 500 万例) でのカーネル回帰を可能にします。
このアプローチを使用して、CIFAR-5m データセットの何桁にもわたるいくつかのニューラル カーネルのスケーリング則を調べます。
データ拡張を使用して元の CIFAR-10 トレーニング データセットを 20 倍に拡張すると、91.2\% のテスト精度が得られます (純粋なカーネル メソッドの SotA)。
さらに、他のデータ モダリティでニューラル カーネルを調査し、SotA メソッドと競合するタンパク質および低分子予測タスクの結果を取得します。
要約(オリジナル)
Neural kernels have drastically increased performance on diverse and nonstandard data modalities but require significantly more compute, which previously limited their application to smaller datasets. In this work, we address this by massively parallelizing their computation across many GPUs. We combine this with a distributed, preconditioned conjugate gradients algorithm to enable kernel regression at a large scale (i.e. up to five million examples). Using this approach, we study scaling laws of several neural kernels across many orders of magnitude for the CIFAR-5m dataset. Using data augmentation to expand the original CIFAR-10 training dataset by a factor of 20, we obtain a test accuracy of 91.2\% (SotA for a pure kernel method). Moreover, we explore neural kernels on other data modalities, obtaining results on protein and small molecule prediction tasks that are competitive with SotA methods.
arxiv情報
著者 | Ben Adlam,Jaehoon Lee,Shreyas Padhy,Zachary Nado,Jasper Snoek |
発行日 | 2023-03-09 17:11:31+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google