Compactly-supported nonstationary kernels for computing exact Gaussian processes on big data

要約

ガウスプロセス(GP)は、確率的関数近似、確率モデリング、および非線形プロセスの実際の測定の分析のための暗黙の不確実性の特性評価を備えた広く使用されている確率的機械学習方法です。
GPSの従来の実装には、柔軟性を制限する固定核(共分散関数とも呼ばれる)と、約1万ポイント以上のデータセットへの適用を防ぐ推論の正確な方法が含まれます。
定常性の仮定に対処するための最新のアプローチは、一般に大規模なデータセットに対応できませんが、スケーラビリティに対処しようとするすべての試みは、主観性を伴い、不正確さにつながる可能性のあるガウスの尤度を近似することに焦点を当てています。
この作業では、スパース性と非定常性の両方を発見およびエンコードできる代替カーネルを明示的に導き出します。
完全にベイジアンGPモデルにカーネルを埋め込み、高性能コンピューティングリソースを活用して、大規模なデータセットの分析を可能にしました。
さまざまな合成データの例にわたって、既存の正確および近似のGPメソッドと比較して、私たちの新しいカーネルの好ましい性能を示します。
さらに、毎日の最高気温の100万件以上の測定に基づいて時空予測を実施し、結果が地球科学の最先端の方法よりも優れていることを確認します。
さらに広く言えば、超スケーラブルでスパースディスコーブしている非定常カーネルを使用する正確なGPにアクセスできるため、GPメソッドはさまざまな機械学習方法と真に競合することができます。

要約(オリジナル)

The Gaussian process (GP) is a widely used probabilistic machine learning method with implicit uncertainty characterization for stochastic function approximation, stochastic modeling, and analyzing real-world measurements of nonlinear processes. Traditional implementations of GPs involve stationary kernels (also termed covariance functions) that limit their flexibility, and exact methods for inference that prevent application to data sets with more than about ten thousand points. Modern approaches to address stationarity assumptions generally fail to accommodate large data sets, while all attempts to address scalability focus on approximating the Gaussian likelihood, which can involve subjectivity and lead to inaccuracies. In this work, we explicitly derive an alternative kernel that can discover and encode both sparsity and nonstationarity. We embed the kernel within a fully Bayesian GP model and leverage high-performance computing resources to enable the analysis of massive data sets. We demonstrate the favorable performance of our novel kernel relative to existing exact and approximate GP methods across a variety of synthetic data examples. Furthermore, we conduct space-time prediction based on more than one million measurements of daily maximum temperature and verify that our results outperform state-of-the-art methods in the Earth sciences. More broadly, having access to exact GPs that use ultra-scalable, sparsity-discovering, nonstationary kernels allows GP methods to truly compete with a wide variety of machine learning methods.

arxiv情報

著者 Mark D. Risser,Marcus M. Noack,Hengrui Luo,Ronald Pandolfi
発行日 2025-02-24 18:43:05+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.AP, stat.CO, stat.ME, stat.ML パーマリンク