Soft Hoeffding Tree: A Transparent and Differentiable Model on Data Streams

要約

私たちは、おそらく無限で変化するデータ ストリームに対する新しい微分可能で透明なモデルとして、ソフト ホーフディング ツリー (SoHoT) を提案します。
Hoeffding ツリーなどのストリーム マイニング アルゴリズムは、受信データ ストリームに基づいて成長しますが、現時点ではエンドツーエンドの深層学習システムのような適応性が欠けています。
特徴表現がニューラル ネットワークによって学習され、ツリーで使用される場合、またはツリーの出力が深層学習モデルまたはワークフローでさらに処理される場合、エンドツーエンド学習が望ましい可能性があります。
ヘフディングの木とは異なり、針葉樹は微分可能であるためそのようなシステムに統合できますが、透明でも説明可能でもありません。
私たちの新しいモデルは、Hoeffding ツリーの拡張性と透明性を、針葉樹の微分可能性と組み合わせています。
ツリー内の単変量分割と多変量分割の間のバランスを調整するための新しいゲート関数を導入します。
実験は 20 のデータ ストリームに対して実行され、SoHoT を標準的な Hoeffding ツリー、複雑さが制限された Hoeffding ツリー、およびサンプル ルーティングにスパース アクティベーション関数を適用したソフト ツリーと比較します。
結果は、ソフト Hoeffding ツリーがクラス確率の推定において Hoeffding ツリーよりも優れており、同時にソフト ツリーと比較して透明性を維持し、AUROC とクロスエントロピーの点での損失が比較的小さいことを示しています。
また、ハイパーパラメーターを使用して透明性とパフォーマンスをトレードオフし、スペクトルの一方の端で単変量の分割を取得し、もう一方の端で多変量の分割を取得する方法も示します。

要約(オリジナル)

We propose soft Hoeffding trees (SoHoT) as a new differentiable and transparent model for possibly infinite and changing data streams. Stream mining algorithms such as Hoeffding trees grow based on the incoming data stream, but they currently lack the adaptability of end-to-end deep learning systems. End-to-end learning can be desirable if a feature representation is learned by a neural network and used in a tree, or if the outputs of trees are further processed in a deep learning model or workflow. Different from Hoeffding trees, soft trees can be integrated into such systems due to their differentiability, but are neither transparent nor explainable. Our novel model combines the extensibility and transparency of Hoeffding trees with the differentiability of soft trees. We introduce a new gating function to regulate the balance between univariate and multivariate splits in the tree. Experiments are performed on 20 data streams, comparing SoHoT to standard Hoeffding trees, Hoeffding trees with limited complexity, and soft trees applying a sparse activation function for sample routing. The results show that soft Hoeffding trees outperform Hoeffding trees in estimating class probabilities and, at the same time, maintain transparency compared to soft trees, with relatively small losses in terms of AUROC and cross-entropy. We also demonstrate how to trade off transparency against performance using a hyperparameter, obtaining univariate splits at one end of the spectrum and multivariate splits at the other.

arxiv情報

著者 Kirsten Köbschall,Lisa Hartung,Stefan Kramer
発行日 2024-11-07 15:49:53+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG パーマリンク