Multi forests: Variable importance for multi-class outcomes

要約

マルチクラスの結果を伴う予測タスクでは、1 つ以上の結果クラスに特に関連する共変量を特定することが重要になる場合があります。
順列やジニ重要度などのランダム フォレスト (RF) からの従来の変数重要度測定 (VIM) は、クラス間を区別することなく、全体的な予測パフォーマンスやノードの純度に焦点を当てています。
したがって、クラス関連の共変量とクラスのグループ間のみを区別する共変量を区別できないことが予想されます。
マルチ フォレスト (MuF) と呼ばれる新しい RF バリアントを介して、クラスに関連する共変量のみを識別するように調整されたマルチクラス VIM と呼ばれる VIM を導入します。
MuF のツリーでは、マルチウェイ分割とバイナリ分割の両方が使用されます。
マルチウェイ分割では、これらのノードがそれぞれのクラスをどの程度適切に表現しているかを評価する分割基準を使用して、各クラスの子ノードを生成します。
この設定は、この分割基準に関してそれぞれの共変量で実行される分割の識別能力を測定するマルチクラス VIM の基礎を形成します。
マルチクラス VIM に加えて、2 番目の VIM である差別的 VIM を導入します。
この測定は、バイナリ分割に基づいて、共変量のクラス関連性に関係なく、共変量の一般的な影響の強さを評価します。
シミュレーション研究は、他のタイプの共変量も高くランク付けする従来の VIM とは異なり、マルチクラス VIM は特にクラス関連の共変量を高くランク付けすることを示しています。
121 のデータセットの分析により、MuF は従来の RF と比較して予測性能がわずかに低い場合が多いことが明らかになりました。
ただし、マルチクラス VIM を計算するというアルゴリズムの主な目的を考慮すると、これは制限要因ではありません。

要約(オリジナル)

In prediction tasks with multi-class outcomes, identifying covariates specifically associated with one or more outcome classes can be important. Conventional variable importance measures (VIMs) from random forests (RFs), like permutation and Gini importance, focus on overall predictive performance or node purity, without differentiating between the classes. Therefore, they can be expected to fail to distinguish class-associated covariates from covariates that only distinguish between groups of classes. We introduce a VIM called multi-class VIM, tailored for identifying exclusively class-associated covariates, via a novel RF variant called multi forests (MuFs). The trees in MuFs use both multi-way and binary splitting. The multi-way splits generate child nodes for each class, using a split criterion that evaluates how well these nodes represent their respective classes. This setup forms the basis of the multi-class VIM, which measures the discriminatory ability of the splits performed in the respective covariates with regard to this split criterion. Alongside the multi-class VIM, we introduce a second VIM, the discriminatory VIM. This measure, based on the binary splits, assesses the strength of the general influence of the covariates, irrespective of their class-associatedness. Simulation studies demonstrate that the multi-class VIM specifically ranks class-associated covariates highly, unlike conventional VIMs which also rank other types of covariates highly. Analyses of 121 datasets reveal that MuFs often have slightly lower predictive performance compared to conventional RFs. This is, however, not a limiting factor given the algorithm’s primary purpose of calculating the multi-class VIM.

arxiv情報

著者 Roman Hornung,Alexander Hapfelmeier
発行日 2024-09-13 15:40:29+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.CO, stat.ME, stat.ML パーマリンク