Robust online active learning

要約

多くの産業用途では、人間の専門家の介入や高価な試験装置の使用が必要になることが多いため、ラベル付きの観察値を取得することは簡単ではありません。
このような状況では、アクティブ ラーニングは、モデルのフィッティング時に使用する最も有益なデータ ポイントを提案する点で非常に有益です。
モデル開発に必要な観測数を減らすと、トレーニングに必要な計算負荷とラベル付けに関連する運用コストの両方が軽減されます。
オンライン アクティブ ラーニングは、特に、データ ポイントのラベルの取得を非常に短い時間枠内で決定する必要がある大量生産プロセスで役立ちます。
しかし、オンラインのアクティブ ラーニング戦略を開発する最近の取り組みにもかかわらず、外れ値が存在する場合のこれらの手法の動作は十分に調査されていません。
この研究では、汚染されたデータ ストリームにおけるオンラインのアクティブ線形回帰のパフォーマンスを調査します。
私たちの調査では、現在利用可能なクエリ戦略には外れ値が含まれる傾向があり、その外れ値をトレーニング セットに含めると、最終的にモデルの予測パフォーマンスが低下することがわかりました。
この問題に対処するために、条件付き D 最適化アルゴリズムの検索領域を制限し、ロバストな推定量を使用するソリューションを提案します。
私たちのアプローチは、入力空間の目に見えない領域の探索と外れ値からの保護の間でバランスをとります。
数値シミュレーションを通じて、提案された方法が外れ値の存在下でオンラインアクティブラーニングのパフォーマンスを向上させるのに効果的であることを示し、これにより、この強力なツールの潜在的なアプリケーションが拡大します。

要約(オリジナル)

In many industrial applications, obtaining labeled observations is not straightforward as it often requires the intervention of human experts or the use of expensive testing equipment. In these circumstances, active learning can be highly beneficial in suggesting the most informative data points to be used when fitting a model. Reducing the number of observations needed for model development alleviates both the computational burden required for training and the operational expenses related to labeling. Online active learning, in particular, is useful in high-volume production processes where the decision about the acquisition of the label for a data point needs to be taken within an extremely short time frame. However, despite the recent efforts to develop online active learning strategies, the behavior of these methods in the presence of outliers has not been thoroughly examined. In this work, we investigate the performance of online active linear regression in contaminated data streams. Our study shows that the currently available query strategies are prone to sample outliers, whose inclusion in the training set eventually degrades the predictive performance of the models. To address this issue, we propose a solution that bounds the search area of a conditional D-optimal algorithm and uses a robust estimator. Our approach strikes a balance between exploring unseen regions of the input space and protecting against outliers. Through numerical simulations, we show that the proposed method is effective in improving the performance of online active learning in the presence of outliers, thus expanding the potential applications of this powerful tool.

arxiv情報

著者 Davide Cacciarelli,Murat Kulahci,John Sølve Tyssedal
発行日 2023-07-18 15:31:45+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.LG, stat.ML パーマリンク