On the challenges to learn from Natural Data Streams

要約

実世界の文脈では、データが自然データストリームの形で利用できることがある。すなわち、ストリーミング性、不均衡な分布、長い時間枠でのデータドリフト、短い時間範囲でのサンプル間の強い相関性などの特徴を持つデータである。さらに、従来のトレーニング段階と展開段階の間の明確な分離は、通常、欠けています。このデータ整理と結実は、従来の機械学習・深層学習アルゴリズムと漸進的学習エージェント、すなわち過去の経験を通じて知識を漸進的に改善する能力を持つエージェントの両方にとって、興味深く、挑戦的なシナリオを表している。本論文では、自然データストリームを訓練入力として受け取る様々な研究分野、すなわち継続学習、ストリーミング学習、オンライン学習に属する様々なアルゴリズムの分類性能を調査している。実験的検証は、この困難な設定を再現するために特別に編成された3つの異なるデータセットで実施される。

要約(オリジナル)

In real-world contexts, sometimes data are available in form of Natural Data Streams, i.e. data characterized by a streaming nature, unbalanced distribution, data drift over a long time frame and strong correlation of samples in short time ranges. Moreover, a clear separation between the traditional training and deployment phases is usually lacking. This data organization and fruition represents an interesting and challenging scenario for both traditional Machine and Deep Learning algorithms and incremental learning agents, i.e. agents that have the ability to incrementally improve their knowledge through the past experience. In this paper, we investigate the classification performance of a variety of algorithms that belong to various research field, i.e. Continual, Streaming and Online Learning, that receives as training input Natural Data Streams. The experimental validation is carried out on three different datasets, expressly organized to replicate this challenging setting.

arxiv情報

著者 Guido Borghi,Gabriele Graffieti,Davide Maltoni
発行日 2023-01-09 16:32:02+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.CV, cs.LG パーマリンク