A survey on online active learning

要約

【タイトル】オンラインアクティブラーニングに関する調査

【要約】
– オンラインのアクティブラーニングとは、データストリームから最も情報量の多いラベル付けするデータポイントを選択する機械学習のパラダイムである。
– ラベル付けするコストを最小限に抑える問題は、最近の実世界のアプリケーションで注目されており、データがラベルが付けられていない形式でのみ利用可能である場合に特に重要なものとなっている。
– 各観測値に注釈をつけることは時間と費用がかかり、多くのラベル付きデータを取得することが困難になるため、機械学習モデルの性能を向上させるために最も情報量の多い観測データを選択するための多くのアクティブラーニング戦略が提案されている。
– これらのアプローチは、静的なプールベースのアクティブラーニングとストリームベースのアクティブラーニングの2つのカテゴリーに大きく分けることができる。
– プールベースのアクティブラーニングは、未ラベルのデータのクローズドプールから一部の観測を選択することを指し、多くの調査と文献レビューの焦点となっている。
– しかし、データストリームの普及が進み、ストリームベースのアクティブラーニングに注目するアプローチが増加している。これには、データストリームに到着する観測を継続的に選択してラベルを付けることが含まれる。
– この調査は、リアルタイムでデータストリームから最も情報量の多い観測を選択するために最近提案されたアプローチの概要を提供することを目的としている。
– 提案されたさまざまな技術をレビューし、それらの強みと弱み、この分野の課題と機会について議論する。

要約(オリジナル)

Online active learning is a paradigm in machine learning that aims to select the most informative data points to label from a data stream. The problem of minimizing the cost associated with collecting labeled observations has gained a lot of attention in recent years, particularly in real-world applications where data is only available in an unlabeled form. Annotating each observation can be time-consuming and costly, making it difficult to obtain large amounts of labeled data. To overcome this issue, many active learning strategies have been proposed in the last decades, aiming to select the most informative observations for labeling in order to improve the performance of machine learning models. These approaches can be broadly divided into two categories: static pool-based and stream-based active learning. Pool-based active learning involves selecting a subset of observations from a closed pool of unlabeled data, and it has been the focus of many surveys and literature reviews. However, the growing availability of data streams has led to an increase in the number of approaches that focus on online active learning, which involves continuously selecting and labeling observations as they arrive in a stream. This work aims to provide an overview of the most recently proposed approaches for selecting the most informative observations from data streams in real time. We review the various techniques that have been proposed and discuss their strengths and limitations, as well as the challenges and opportunities that exist in this area of research.

arxiv情報

著者 Davide Cacciarelli,Murat Kulahci
発行日 2023-05-03 11:31:38+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク