RFFNet: Large-Scale Interpretable Kernel Methods via Random Fourier Features

要約

カーネル メソッドは、非線形およびノンパラメトリック学習に対する柔軟で理論に基づいたアプローチを提供します。
メモリと実行時の要件により、大規模なデータセットへの適用が妨げられていますが、ランダム フーリエ特徴などの多くの低ランク カーネル近似が、そのようなカーネル手法をスケールアップするために最近開発されました。
ただし、これらのスケーラブルなアプローチは等方性カーネルの近似に基づいているため、無関係な特徴の影響を除去することはできません。
この研究では、自動関連性判定 (ARD) カーネル ファミリのランダム フーリエ特徴を設計し、一次確率的最適化によってカーネルの関連性をオンザフライで学習する新しい大規模カーネル手法である RFFNet を導入します。
メソッドの非凸目的関数の効果的な初期化スキームを提示し、ハードしきい値処理による RFFNet の学習された関連性が変数選択の賢明なルールを生み出すかどうかを評価し、RFFNet のコンポーネントの広範なアブレーション研究を実行します。
シミュレートされたデータと実世界のデータの数値検証により、私たちのアプローチはメモリ使用量と実行時間が小さく、低い予測誤差を実現し、関連する特徴を効果的に識別するため、より解釈可能なソリューションが得られることが示されています。
当社は、結果を完全に再現するための scikit-learn 標準 API とコードに準拠した効率的な PyTorch ベースのライブラリをユーザーに提供します。

要約(オリジナル)

Kernel methods provide a flexible and theoretically grounded approach to nonlinear and nonparametric learning. While memory and run-time requirements hinder their applicability to large datasets, many low-rank kernel approximations, such as random Fourier features, were recently developed to scale up such kernel methods. However, these scalable approaches are based on approximations of isotropic kernels, which cannot remove the influence of irrelevant features. In this work, we design random Fourier features for a family of automatic relevance determination (ARD) kernels, and introduce RFFNet, a new large-scale kernel method that learns the kernel relevances’ on the fly via first-order stochastic optimization. We present an effective initialization scheme for the method’s non-convex objective function, evaluate if hard-thresholding RFFNet’s learned relevances yield a sensible rule for variable selection, and perform an extensive ablation study of RFFNet’s components. Numerical validation on simulated and real-world data shows that our approach has a small memory footprint and run-time, achieves low prediction error, and effectively identifies relevant features, thus leading to more interpretable solutions. We supply users with an efficient, PyTorch-based library, that adheres to the scikit-learn standard API and code for fully reproducing our results.

arxiv情報

著者 Mateus P. Otto,Rafael Izbicki
発行日 2024-04-12 14:51:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク