Simplest Streaming Trees

要約

ランダム フォレストや勾配ブースティング ツリーを含むデシジョン フォレストは、多くの実世界のデータ問題、特に表形式データに対する主要な機械学習手法であり続けています。
ただし、現在の実装のほとんどはバッチ モードでのみ動作するため、追加のデータが到着したときに増分更新することができません。
以前のいくつかの作品では、この制限を克服するためにストリーミング ツリーとアンサンブルが開発されました。
それにもかかわらず、これらの最先端のアルゴリズムには、一部の問題では精度が低く、他の問題ではメモリ使用量が多いなど、多くの欠点があることがわかりました。
そこで私たちは、デシジョン ツリーの最も単純な拡張を開発しました。つまり、新しいデータが与えられた場合、既存のツリーを成長させ続けることで単純に更新し、古いツリーの一部を新しいものに置き換えて、ツリーの総数を制御します。
72 の分類問題を含むベンチマーク スイート (OpenML-CC18 データ スイート) では、私たちのアプローチであるストリーム デシジョン フォレスト (SDF) が前述の制限のいずれにも悩まされていないことを示しています。
これらのデータセットでは、私たちのアプローチが多くの場合、従来のバッチ決定フォレスト アルゴリズムと同等、場合によってはそれ以上に優れたパフォーマンスを発揮することも示しています。
したがって、SDF は、現実世界の多くの問題にすぐに適用できる、ストリーミング ツリーとフォレストの単純な標準を確立します。

要約(オリジナル)

Decision forests, including random forests and gradient boosting trees, remain the leading machine learning methods for many real-world data problems, especially on tabular data. However, most of the current implementations only operate in batch mode, and therefore cannot incrementally update when more data arrive. Several previous works developed streaming trees and ensembles to overcome this limitation. Nonetheless, we found that those state-of-the-art algorithms suffer from a number of drawbacks, including low accuracy on some problems and high memory usage on others. We therefore developed the simplest possible extension of decision trees: given new data, simply update existing trees by continuing to grow them, and replace some old trees with new ones to control the total number of trees. In a benchmark suite containing 72 classification problems (the OpenML-CC18 data suite), we illustrate that our approach, Stream Decision Forest (SDF), does not suffer from either of the aforementioned limitations. On those datasets, we also demonstrate that our approach often performs as well, and sometimes even better, than conventional batch decision forest algorithm. Thus, SDFs establish a simple standard for streaming trees and forests that could readily be applied to many real-world problems.

arxiv情報

著者 Haoyin Xu,Jayanta Dey,Sambit Panda,Joshua T. Vogelstein
発行日 2023-10-24 13:35:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.AI, cs.DS, cs.LG パーマリンク