要約
能動学習とは、機械学習アルゴリズムが学習を最適化するために、能動的にデータ点を特定し、ラベル付けを行う学習戦略である。この戦略は、ラベル付けされていないデータが豊富に存在するが、これらのデータ点にラベル付けするコストが法外に高いドメインにおいて特に有効である。本論文では、2値分類のケースを考える。この場合、正のインスタンスを獲得するためには、負のインスタンスを獲得する場合に比べて、著しく高いコストがかかる。例えば、貸金業などの金融業界では、貸し倒れは大きな財務的損失につながるポジティブなイベントである。この問題に対処するために、我々は、典型的な不確実性サンプリングよりも広い範囲からサンプリングするシフト正規分布サンプリング関数を提案する。我々のシミュレーションは、我々の提案するサンプリング関数が、ノイズの多いラベル選択と正のラベル選択の両方を制限し、異なるテストデータセットに対して20%から32%のコスト効率の改善を実現することを強調する。
要約(オリジナル)
Active learning is a learning strategy whereby the machine learning algorithm actively identifies and labels data points to optimize its learning. This strategy is particularly effective in domains where an abundance of unlabeled data exists, but the cost of labeling these data points is prohibitively expensive. In this paper, we consider cases of binary classification, where acquiring a positive instance incurs a significantly higher cost compared to that of negative instances. For example, in the financial industry, such as in money-lending businesses, a defaulted loan constitutes a positive event leading to substantial financial loss. To address this issue, we propose a shifted normal distribution sampling function that samples from a wider range than typical uncertainty sampling. Our simulation underscores that our proposed sampling function limits both noisy and positive label selection, delivering between 20% and 32% improved cost efficiency over different test datasets.
arxiv情報
著者 | Zan-Kai Chong,Hiroyuki Ohsaki,Bryan Ng |
発行日 | 2024-03-02 23:53:24+00:00 |
arxivサイト | arxiv_id(pdf) |