Adaptive Cholesky Gaussian Processes

要約

データのサブセットのみを考慮して、大規模なデータセットのガウス過程回帰モデルを近似する方法を提示します。
私たちのアプローチは、サブセットのサイズが正確な推論中にオンザフライで選択され、計算オーバーヘッドがほとんどないという点で斬新です。
データセットの十分なサブセットが観察されると、対数限界尤度はしばしば線形傾向を示すという経験的観察から、多くの大規模なデータセットには、事後にわずかに影響する冗長な情報が含まれていると結論付けます。
これに基づいて、そのようなサブセットを識別できる完全なモデルの証拠に確率的境界を提供します。
驚くべきことに、これらの境界の大部分は、標準的なコレスキー分解の中間ステップに現れる項で構成されているため、アルゴリズムを変更して、十分なデータが観測されたら分解を適応的に停止することができます。

要約(オリジナル)

We present a method to approximate Gaussian process regression models for large datasets by considering only a subset of the data. Our approach is novel in that the size of the subset is selected on the fly during exact inference with little computational overhead. From an empirical observation that the log-marginal likelihood often exhibits a linear trend once a sufficient subset of a dataset has been observed, we conclude that many large datasets contain redundant information that only slightly affects the posterior. Based on this, we provide probabilistic bounds on the full model evidence that can identify such subsets. Remarkably, these bounds are largely composed of terms that appear in intermediate steps of the standard Cholesky decomposition, allowing us to modify the algorithm to adaptively stop the decomposition once enough data have been observed.

arxiv情報

著者 Simon Bartels,Kristoffer Stensbo-Smidt,Pablo Moreno-Muñoz,Wouter Boomsma,Jes Frellsen,Søren Hauberg
発行日 2023-02-23 17:03:32+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク