Why do Random Forests Work? Understanding Tree Ensembles as Self-Regularizing Adaptive Smoothers

要約

その顕著な有効性と幅広い応用にもかかわらず、木のアンサンブルの根底にある成功の要因はまだ完全には理解されていない。本論文では、樹木のアンサンブルを適応的で自己正則化するスムーザーとして解釈することで、このトピックに新たな直観と深い洞察が得られることを強調する。我々はこの観点を用いて、ランダム化された木のアンサンブルをスムーザーとして研究した場合、それらが構成する個々の木の予測よりも定量的に滑らかな予測を行うだけでなく、テスト入力とトレーニング入力の非類似性に基づいて、テスト時にその滑らかさをさらに調整することを示す。まず、この洞察を用いて、樹木群が意味する効果的な平滑化の程度を測定することで、樹木群の予想される振る舞いを客観的に定量化する新しい方法を提供することで、森林の成功に関する最近の2つの説明を再検討し、改良し、調和させる。そして、樹木の集合体が個々の樹木を向上させるメカニズムについて、既存の説明の枠を超え、森林の優れたパフォーマンスを分散削減の結果としてのみ理解すべきだという一般的な常識に挑戦する。なぜなら、一般的なバイアスの定義では、木と森が形成する仮説クラスの表現力の違いを捉えることができないからである。その代わりに、我々は、通常暗黙のうちに絡み合っている3つの異なるメカニズムによって、フォレストがツリーを改善できることを示す。特に、我々は、アンサンブルの平滑化効果により、結果生成のノイズによる予測値のばらつきを低減できること、固定された入力データが与えられた場合の学習された関数の品質のばらつきを低減できること、そして、利用可能な仮説空間を豊かにすることにより、学習可能な関数における潜在的なバイアスを低減できることを示す。

要約(オリジナル)

Despite their remarkable effectiveness and broad application, the drivers of success underlying ensembles of trees are still not fully understood. In this paper, we highlight how interpreting tree ensembles as adaptive and self-regularizing smoothers can provide new intuition and deeper insight to this topic. We use this perspective to show that, when studied as smoothers, randomized tree ensembles not only make predictions that are quantifiably more smooth than the predictions of the individual trees they consist of, but also further regulate their smoothness at test-time based on the dissimilarity between testing and training inputs. First, we use this insight to revisit, refine and reconcile two recent explanations of forest success by providing a new way of quantifying the conjectured behaviors of tree ensembles objectively by measuring the effective degree of smoothing they imply. Then, we move beyond existing explanations for the mechanisms by which tree ensembles improve upon individual trees and challenge the popular wisdom that the superior performance of forests should be understood as a consequence of variance reduction alone. We argue that the current high-level dichotomy into bias- and variance-reduction prevalent in statistics is insufficient to understand tree ensembles — because the prevailing definition of bias does not capture differences in the expressivity of the hypothesis classes formed by trees and forests. Instead, we show that forests can improve upon trees by three distinct mechanisms that are usually implicitly entangled. In particular, we demonstrate that the smoothing effect of ensembling can reduce variance in predictions due to noise in outcome generation, reduce variability in the quality of the learned function given fixed input data and reduce potential bias in learnable functions by enriching the available hypothesis space.

arxiv情報

著者 Alicia Curth,Alan Jeffares,Mihaela van der Schaar
発行日 2024-02-02 15:36:43+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG, stat.ML パーマリンク