Example-Based Explanations of Random Forest Predictions

要約

ランダム フォレスト予測は、トレーニング サンプルのラベルのスカラー積と、テスト オブジェクトが属するフォレストのリーフによって決定される一連の重みによって計算できます。
したがって、各予測は、重みがゼロではない一連のトレーニング例によって正確に説明できます。
このような説明で使用される例の数は、トレーニング セットの次元とランダム フォレスト アルゴリズムのハイパーパラメーターによって変化することが示されています。
これは、各予測に含まれる例の数は、これらのパラメーターを変更することである程度制御できることを意味します。
しかし、必要な予測性能につながる設定の場合、各予測に含まれる事例の数が不当に多くなり、ユーザーが説明を理解できなくなる可能性があります。
より有用な説明を提供するために、上部に重み付けされた例のみを含む、修正された予測手順が提案されます。
回帰および分類タスクに関する調査では、標準の予測手順と比較して、予測パフォーマンスを維持、または向上させながら、各説明で使用される例の数を大幅に削減できることが示されています。

要約(オリジナル)

A random forest prediction can be computed by the scalar product of the labels of the training examples and a set of weights that are determined by the leafs of the forest into which the test object falls; each prediction can hence be explained exactly by the set of training examples for which the weights are non-zero. The number of examples used in such explanations is shown to vary with the dimensionality of the training set and hyperparameters of the random forest algorithm. This means that the number of examples involved in each prediction can to some extent be controlled by varying these parameters. However, for settings that lead to a required predictive performance, the number of examples involved in each prediction may be unreasonably large, preventing the user to grasp the explanations. In order to provide more useful explanations, a modified prediction procedure is proposed, which includes only the top-weighted examples. An investigation on regression and classification tasks shows that the number of examples used in each explanation can be substantially reduced while maintaining, or even improving, predictive performance compared to the standard prediction procedure.

arxiv情報

著者 Henrik Boström
発行日 2023-11-24 16:12:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク