Statistical-Computational Trade-offs for Recursive Adaptive Partitioning Estimators

要約

デシジョン ツリーやそのアンサンブルなどの再帰的適応分割に基づくモデルは、次元の呪いを回避できる可能性があるため、高次元回帰によく使用されます。
経験的リスク最小化 (ERM) は計算的に実行不可能であるため、これらのモデルは通常、貪欲なアルゴリズムを使用してトレーニングされます。
多くの場合、これらのアルゴリズムは効果的ですが、局所最適に行き詰まることが経験的に観察されています。
$d$ バイナリ特徴に対するスパース回帰関数を学習するというコンテキストでこの現象を調査し、真の回帰関数 $f^*$ が Abbe らの条件を満たさない場合を示します。
(2022) の Merged Staircase Property (MSP) の貪欲なトレーニングでは、低い推定誤差を達成するために $\exp(\Omega(d))$ が必要です。
逆に、$f^*$ が MSP を満たしている場合、貪欲トレーニングは $O(\log d)$ サンプルのみで小さな推定誤差を達成できます。
この二分法は、平均場領域の確率的勾配降下法 (SGD) でトレーニングされた 2 層ニューラル ネットワークの二分法を反映しており、それによって、SGD でトレーニングされたニューラル ネットワークと貪欲な再帰的分割推定器の間の直接比較が確立されます。
さらに、ERM でトレーニングされた再帰的分割推定器は、$f^*$ が MSP を満たすかどうかに関係なく、$O(\log d)$ サンプルで低い推定誤差を達成します。これにより、貪欲なトレーニングに対する統計的計算上のトレードオフが実証されます。
私たちの証明は、確率過程理論を使用した貪欲な再帰的分割の新しい解釈と、独立して興味深い可能性のある結合手法に基づいています。

要約(オリジナル)

Models based on recursive adaptive partitioning such as decision trees and their ensembles are popular for high-dimensional regression as they can potentially avoid the curse of dimensionality. Because empirical risk minimization (ERM) is computationally infeasible, these models are typically trained using greedy algorithms. Although effective in many cases, these algorithms have been empirically observed to get stuck at local optima. We explore this phenomenon in the context of learning sparse regression functions over $d$ binary features, showing that when the true regression function $f^*$ does not satisfy Abbe et al. (2022)’s Merged Staircase Property (MSP), greedy training requires $\exp(\Omega(d))$ to achieve low estimation error. Conversely, when $f^*$ does satisfy MSP, greedy training can attain small estimation error with only $O(\log d)$ samples. This dichotomy mirrors that of two-layer neural networks trained with stochastic gradient descent (SGD) in the mean-field regime, thereby establishing a head-to-head comparison between SGD-trained neural networks and greedy recursive partitioning estimators. Furthermore, ERM-trained recursive partitioning estimators achieve low estimation error with $O(\log d)$ samples irrespective of whether $f^*$ satisfies MSP, thereby demonstrating a statistical-computational trade-off for greedy training. Our proofs are based on a novel interpretation of greedy recursive partitioning using stochastic process theory and a coupling technique that may be of independent interest.

arxiv情報

著者 Yan Shuo Tan,Jason M. Klusowski,Krishnakumar Balasubramanian
発行日 2024-11-18 15:18:54+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: 62G08, 68Q32, cs.DS, cs.LG, G.3, stat.ML パーマリンク