Forward variable selection enables fast and accurate dynamic system identification with Karhunen-Loève decomposed Gaussian processes

要約

スケーラブルなガウス過程 (GP) の有望なアプローチは、Karhunen-Lo\`eve (KL) 分解です。この分解では、GP カーネルは、カーネル オペレーターの固有関数である一連の基底関数によって表されます。
このような分解されたカーネルは、非常に高速になる可能性があり、誘導点の縮小セットの選択に依存しません。
ただし、KL 分解は高次元につながり、変数の選択が最重要になります。
この論文では、ベイズ平滑化スプライン ANOVA カーネル (BSS-ANOVA) の KL 展開における基底関数の順序付けられた性質と、完全なベイジアン アプローチでの高速ギブス サンプリングとの組み合わせによって可能になる、前方変数選択の新しい方法を報告します。
用語の数を迅速かつ効果的に制限し、機能セットの次元が低い表形式のデータセットに対して、競争力のある精度、トレーニング、および推論時間を備えた方法を生み出します。
推論の速度と精度により、この方法は動的システムの識別に特に役立ちます。接空間でのダイナミクスを静的問題としてモデル化し、学習したダイナミクスを高次スキームを使用して統合します。
メソッドは、2 つの動的データセットで実証されています。実験的な「カスケード タンク」ベンチマーク データセットと共に、伝達率を強制関数として使用する「感受性、感染、回復」(SIR) 玩具問題です。
時間導関数の静的予測の比較は、ランダム フォレスト (RF)、残差ニューラル ネットワーク (ResNet)、およびポイント スケーラブル GP を誘導する直交加法カーネル (OAK) を使用して行われ、時系列予測の比較は LSTM および
GRU リカレント ニューラル ネットワーク (RNN) と SINDy パッケージ。

要約(オリジナル)

A promising approach for scalable Gaussian processes (GPs) is the Karhunen-Lo\`eve (KL) decomposition, in which the GP kernel is represented by a set of basis functions which are the eigenfunctions of the kernel operator. Such decomposed kernels have the potential to be very fast, and do not depend on the selection of a reduced set of inducing points. However KL decompositions lead to high dimensionality, and variable selection becomes paramount. This paper reports a new method of forward variable selection, enabled by the ordered nature of the basis functions in the KL expansion of the Bayesian Smoothing Spline ANOVA kernel (BSS-ANOVA), coupled with fast Gibbs sampling in a fully Bayesian approach. It quickly and effectively limits the number of terms, yielding a method with competitive accuracies, training and inference times for tabular datasets of low feature set dimensionality. The inference speed and accuracy makes the method especially useful for dynamic systems identification, by modeling the dynamics in the tangent space as a static problem, then integrating the learned dynamics using a high-order scheme. The methods are demonstrated on two dynamic datasets: a `Susceptible, Infected, Recovered’ (SIR) toy problem, with the transmissibility used as forcing function, along with the experimental `Cascaded Tanks’ benchmark dataset. Comparisons on the static prediction of time derivatives are made with a random forest (RF), a residual neural network (ResNet), and the Orthogonal Additive Kernel (OAK) inducing points scalable GP, while for the timeseries prediction comparisons are made with LSTM and GRU recurrent neural networks (RNNs) along with the SINDy package.

arxiv情報

著者 Kyle Hayes,Michael W. Fouts,Ali Baheri,David S. Mebane
発行日 2023-02-23 16:53:23+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.DS, stat.CO, stat.ML パーマリンク