The Computational Curse of Big Data for Bayesian Additive Regression Trees: A Hitting Time Analysis

要約

ベイジアン加法回帰ツリー (BART) は、因果推論などでよく使用される人気のあるベイジアン ノンパラメトリック回帰モデルです。
その強力な予測パフォーマンスは、さまざまなデータ生成設定および適切な事前選択の下で、事後分布が最適なレートで真の回帰関数の周囲に集中するという理論的保証によってサポートされています。
この論文では、BART サンプラーがゆっくりと収束することが多いことを示し、他の研究者による経験的観察を裏付けています。
離散共変量を仮定すると、BART 事後分布はすべての最適なツリー構造 (最小のバイアスと複雑さ) で構成されるセットに集中しますが、このセットのマルコフ連鎖のヒット時間は、いくつかの一般的な条件下で $n$ (トレーニング サンプル サイズ) とともに増加することを示します。
データ生成設定。
したがって、 $n$ が増加するにつれて、近似の BART 事後分布は (同じ数の MCMC サンプルの場合) 正確な事後分布とますます異なってきます。これは、正確な事後分布に関する以前の濃度結果とは対照的です。
このコントラストは、近似事後間隔の頻度主義的アンダーカバレッジの悪化と、近似事後間隔の MSE と複数のサンプラー チェーンの平均化によって人為的に収束を改善することで得られる MSE との間の比率が増大していることを示すシミュレーションによって強調されています。
最後に、理論的な洞察に基づいて、BART サンプラーの収束パフォーマンスを向上させる可能性について説明します。

要約(オリジナル)

Bayesian Additive Regression Trees (BART) is a popular Bayesian non-parametric regression model that is commonly used in causal inference and beyond. Its strong predictive performance is supported by theoretical guarantees that its posterior distribution concentrates around the true regression function at optimal rates under various data generative settings and for appropriate prior choices. In this paper, we show that the BART sampler often converges slowly, confirming empirical observations by other researchers. Assuming discrete covariates, we show that, while the BART posterior concentrates on a set comprising all optimal tree structures (smallest bias and complexity), the Markov chain’s hitting time for this set increases with $n$ (training sample size), under several common data generative settings. As $n$ increases, the approximate BART posterior thus becomes increasingly different from the exact posterior (for the same number of MCMC samples), contrasting with earlier concentration results on the exact posterior. This contrast is highlighted by our simulations showing worsening frequentist undercoverage for approximate posterior intervals and a growing ratio between the MSE of the approximate posterior and that obtainable by artificially improving convergence via averaging multiple sampler chains. Finally, based on our theoretical insights, possibilities are discussed to improve the BART sampler convergence performance.

arxiv情報

著者 Yan Shuo Tan,Omer Ronen,Theo Saarinen,Bin Yu
発行日 2024-06-28 14:45:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G08, 65C40, cs.LG, math.ST, stat.ML, stat.TH パーマリンク