Co-data Learning for Bayesian Additive Regression Trees


医療予測アプリケーションでは、共変量の数に比べて小さなサンプル サイズを処理する必要があることがよくあります。
これらの課題に対処するために、私たちは、共データ、つまり共変量に関する外部情報をベイジアン加法回帰ツリー (BART) に組み込むことを提案します。これは、過学習を防ぐためにツリー パラメーターの事前分布を利用するツリー和予測モデルです。
共データを組み込むために、共データ モデルの支援を受けて、BART モデルの以前の共変量の重みを推定する経験的ベイズ (EB) フレームワークが開発されます。
提案手法は複数種類の co-data を同時に扱うことができる.
さらに、提案された EB フレームワークにより、BART の他のハイパーパラメータの推定も可能になり、相互検証に代わる魅力的な選択肢となります。
この方法が関連する共変量を見つけ、シミュレーションにおけるデフォルトの BART と比較して予測が向上することを示します。
共変量と応答の関係が非線形の場合、この方法は BART の柔軟性の恩恵を受け、回帰ベースの共データ学習器よりも優れたパフォーマンスを発揮します。
最後に、共データの使用により、臨床共変量、遺伝子変異、DNA 転座、および DNA コピー数データに基づいたびまん性大細胞型 B 細胞リンパ腫の予後予測を強化します。
キーワード: ベイジアン加法回帰ツリー。


Medical prediction applications often need to deal with small sample sizes compared to the number of covariates. Such data pose problems for prediction and variable selection, especially when the covariate-response relationship is complicated. To address these challenges, we propose to incorporate co-data, i.e. external information on the covariates, into Bayesian additive regression trees (BART), a sum-of-trees prediction model that utilizes priors on the tree parameters to prevent overfitting. To incorporate co-data, an empirical Bayes (EB) framework is developed that estimates, assisted by a co-data model, prior covariate weights in the BART model. The proposed method can handle multiple types of co-data simultaneously. Furthermore, the proposed EB framework enables the estimation of the other hyperparameters of BART as well, rendering an appealing alternative to cross-validation. We show that the method finds relevant covariates and that it improves prediction compared to default BART in simulations. If the covariate-response relationship is nonlinear, the method benefits from the flexibility of BART to outperform regression-based co-data learners. Finally, the use of co-data enhances prediction in an application to diffuse large B-cell lymphoma prognosis based on clinical covariates, gene mutations, DNA translocations, and DNA copy number data. Keywords: Bayesian additive regression trees; Empirical Bayes; Co-data; High-dimensional data; Omics; Prediction


著者 Jeroen M. Goedhart,Thomas Klausch,Jurriaan Janssen,Mark A. van de Wiel
発行日 2023-11-16 16:14:39+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス, Google

カテゴリー: cs.LG, stat.ML パーマリンク