A survey on online active learning

要約

オンライン アクティブ ラーニングは、データ ストリームからラベル付けする最も有益なデータ ポイントを選択することを目的とした機械学習のパラダイムです。
ラベル付けされた観測値の収集に関連するコストを最小限に抑えるという問題は、特にデータがラベル付けされていない形式でしか利用できない現実世界のアプリケーションで、近年多くの注目を集めています。
各観察結果に注釈を付けるには時間とコストがかかるため、大量のラベル付きデータを取得することが困難になります。
この問題を克服するために、機械学習モデルのパフォーマンスを向上させるために、ラベル付けに最も有益な観察結果を選択することを目的として、過去数十年間に多くのアクティブ ラーニング戦略が提案されてきました。
これらのアプローチは、静的プールベースとストリームベースのアクティブ ラーニングの 2 つのカテゴリに大きく分けることができます。
プールベースのアクティブ ラーニングでは、ラベル付けされていないデータの閉じたプールから観測のサブセットを選択する必要があり、多くの調査や文献レビューの焦点となっています。
ただし、データ ストリームの利用可能性が高まるにつれて、オンラインのアクティブ ラーニングに焦点を当てたアプローチの数が増加しました。
この作業は、オンライン アクティブ ラーニングのコンテキストでデータ ストリームから最も有益な観測を選択するための最も最近提案されたアプローチの概要を提供することを目的としています。
提案されているさまざまな手法を確認し、その長所と制限、およびこの研究分野に存在する課題と機会について説明します。
私たちのレビューは、この分野の包括的かつ最新の概要を提供し、将来の作業の方向性を強調することを目的としています.

要約(オリジナル)

Online active learning is a paradigm in machine learning that aims to select the most informative data points to label from a data stream. The problem of minimizing the cost associated with collecting labeled observations has gained a lot of attention in recent years, particularly in real-world applications where data is only available in an unlabeled form. Annotating each observation can be time-consuming and costly, making it difficult to obtain large amounts of labeled data. To overcome this issue, many active learning strategies have been proposed in the last decades, aiming to select the most informative observations for labeling in order to improve the performance of machine learning models. These approaches can be broadly divided into two categories: static pool-based and stream-based active learning. Pool-based active learning involves selecting a subset of observations from a closed pool of unlabeled data, and it has been the focus of many surveys and literature reviews. However, the growing availability of data streams has led to an increase in the number of approaches that focus on online active learning, which involves continuously selecting and labeling observations as they arrive in a stream. This work aims to provide an overview of the most recently proposed approaches for selecting the most informative observations from data streams in the context of online active learning. We review the various techniques that have been proposed and discuss their strengths and limitations, as well as the challenges and opportunities that exist in this area of research. Our review aims to provide a comprehensive and up-to-date overview of the field and to highlight directions for future work.

arxiv情報

著者 Davide Cacciarelli,Murat Kulahci
発行日 2023-03-14 17:09:47+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ME, stat.ML パーマリンク