MMD-based Variable Importance for Distributional Random Forest

要約

分布ランダム フォレスト (DRF) は、入力変数が与えられた対象となる多変量出力の完全な条件付き分布を推定する、柔軟なフォレスト ベースの方法です。
この記事では、確立されたドロップと再学習の原則と MMD 距離に基づいた、DRF の可変重要度アルゴリズムを紹介します。
従来の重要度測定では、出力平均に影響を与える変数のみが検出されますが、私たちのアルゴリズムは、より一般的に出力分布に影響を与える変数を検出します。
導入された重要度の尺度は一貫しており、実際のデータとシミュレートされたデータの両方で高い経験的パフォーマンスを示し、競合他社を上回るパフォーマンスを示します。
特に、私たちのアルゴリズムは、再帰的な特徴除去を通じて変数を選択するのに非常に効率的であるため、条件付き出力分布の正確な推定を構築するための小さな変数セットを提供できます。

要約(オリジナル)

Distributional Random Forest (DRF) is a flexible forest-based method to estimate the full conditional distribution of a multivariate output of interest given input variables. In this article, we introduce a variable importance algorithm for DRFs, based on the well-established drop and relearn principle and MMD distance. While traditional importance measures only detect variables with an influence on the output mean, our algorithm detects variables impacting the output distribution more generally. We show that the introduced importance measure is consistent, exhibits high empirical performance on both real and simulated data, and outperforms competitors. In particular, our algorithm is highly efficient to select variables through recursive feature elimination, and can therefore provide small sets of variables to build accurate estimates of conditional output distributions.

arxiv情報

著者 Clément Bénard,Jeffrey Näf,Julie Josse
発行日 2023-10-18 17:12:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク