Mondrian Forest for Data Stream Classification Under Memory Constraints

要約

教師あり学習アルゴリズムは一般に、学習とテストの段階でデータモデルを保存するのに十分なメモリが利用可能であることを前提としている。しかし、モノのインターネットでは、データが無限のデータストリームの形で提供される場合や、学習アルゴリズムがメモリ量の少ないデバイス上に展開される場合、この仮定は非現実的である。本稿では、オンライン・モンドリアンフォレスト分類アルゴリズムを、データストリームのメモリ制約に対応するように適応させる。特に、メモリ制限に達したときに新しいデータポイントでモンドリアン樹を更新する5つのアウトオブメモリ戦略を設計する。さらに、メモリ制約下でモンドリアンの木をコンセプトドリフトに対してより頑健にするためのトリミング機構を設計する。我々は、様々な実データセットとシミュレーションデータセットで我々のアルゴリズムを評価し、様々な状況での使用に関する推奨を結論として述べる:Extend Node戦略は、全ての構成において最良のアウトオブメモリ戦略として現れ、一方、異なるトリミングメカニズムは、コンセプトドリフトが予想されるかどうかに応じて採用されるべきである。我々の手法はすべてOrpailleCCオープンソースライブラリに実装されており、組込みシステムや接続されたオブジェクトに使用することができる。

要約(オリジナル)

Supervised learning algorithms generally assume the availability of enough memory to store their data model during the training and test phases. However, in the Internet of Things, this assumption is unrealistic when data comes in the form of infinite data streams, or when learning algorithms are deployed on devices with reduced amounts of memory. In this paper, we adapt the online Mondrian forest classification algorithm to work with memory constraints on data streams. In particular, we design five out-of-memory strategies to update Mondrian trees with new data points when the memory limit is reached. Moreover, we design trimming mechanisms to make Mondrian trees more robust to concept drifts under memory constraints. We evaluate our algorithms on a variety of real and simulated datasets, and we conclude with recommendations on their use in different situations: the Extend Node strategy appears as the best out-of-memory strategy in all configurations, whereas different trimming mechanisms should be adopted depending on whether a concept drift is expected. All our methods are implemented in the OrpailleCC open-source library and are ready to be used on embedded systems and connected objects.

arxiv情報

著者 Martin Khannouz,Tristan Glatard
発行日 2023-08-04 12:54:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.LG パーマリンク