Optimizing High-Dimensional Oblique Splits

要約

直交するスプリットの木はうまく機能しますが、証拠は、斜めの分裂がパフォーマンスを向上させることができることを示唆しています。
このペーパーでは、$ \ {(\ vec {w}、\ vec {w}^{\ top} \ boldsymbol {x} _ {i}):i \ in \ {1、\ dots、n \ ve}、\ vec {w} \ vec {w} \ vec {i})から高次元$ s $ -sparse斜めの分裂を最適化する
\ mathbb {r}^p、\ |
\ vec {w} \ | _ {2} = 1、\ |
\ vec {w} \ | _ {0} \ leq s \} $の斜めの木のための$。$ s $はユーザー定義のスパースパラメーターです。
SIDコンバージェンスと$ S_0 $ -SPARSEの斜めの分割と$ S_0 \ GE 1 $での接続を確立し、SID関数クラスが$ S_0 $が増加するにつれて拡大することを示し、$ S_0 $ -Dimensional XOR機能などのより複雑なデータ生成関数をキャプチャできるようにします。
したがって、$ s_0 $は、基礎となるデータ生成関数の未知の潜在的な複雑さを表します。
これらの複雑な関数を学習するには、$ s \ geq s_0 $およびより大きな計算リソースを備えた$ s $ -sparse斜めツリーが必要です。
これは、$ s_0 $に応じてSID関数のクラスサイズと計算コストに準拠する統計的精度とのトレードオフを強調します。
対照的に、以前の研究では、$ S_0 = S = 1 $を使用した直交分割を使用したSID収束の問題を調査しました。
さらに、最適化された斜めの分割と直交分裂をランダムな森林に統合する斜めの木の実用的なフレームワークを紹介します。
提案されたアプローチは、シミュレーションと実質実験を通じて評価され、そのパフォーマンスをさまざまな斜めツリーモデルと比較します。

要約(オリジナル)

Orthogonal-split trees perform well, but evidence suggests oblique splits can enhance their performance. This paper explores optimizing high-dimensional $s$-sparse oblique splits from $\{(\vec{w}, \vec{w}^{\top}\boldsymbol{X}_{i}) : i\in \{1,\dots, n\}, \vec{w} \in \mathbb{R}^p, \| \vec{w} \|_{2} = 1, \| \vec{w} \|_{0} \leq s \}$ for growing oblique trees, where $ s $ is a user-defined sparsity parameter. We establish a connection between SID convergence and $s_0$-sparse oblique splits with $s_0\ge 1$, showing that the SID function class expands as $s_0$ increases, enabling the capture of more complex data-generating functions such as the $s_0$-dimensional XOR function. Thus, $s_0$ represents the unknown potential complexity of the underlying data-generating function. Learning these complex functions requires an $s$-sparse oblique tree with $s \geq s_0$ and greater computational resources. This highlights a trade-off between statistical accuracy, governed by the SID function class size depending on $s_0$, and computational cost. In contrast, previous studies have explored the problem of SID convergence using orthogonal splits with $ s_0 = s = 1 $, where runtime was less critical. Additionally, we introduce a practical framework for oblique trees that integrates optimized oblique splits alongside orthogonal splits into random forests. The proposed approach is assessed through simulations and real-data experiments, comparing its performance against various oblique tree models.

arxiv情報

著者 Chien-Ming Chi
発行日 2025-03-18 16:14:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, math.ST, stat.ME, stat.ML, stat.TH パーマリンク