Improving Uncertainty Sampling with Bell Curve Weight Function

要約

通常、教師あり学習モデルは、ラベル付けされていないインスタンスをランダムに選択してアノテーションを付ける受動学習を使って学習される。このアプローチはモデルの学習には効果的だが、ラベル付けされたインスタンスの取得にコストがかかる場合には、コストが高くつく可能性がある。例えば、最初のデータ収集時に、受信トレイに溢れる何千通ものメール(ラベル付けされていないインスタンス)からスパムメール(ラベル付けされたインスタンス)を手作業で識別するのは時間がかかる。一般に、我々は不確実性サンプリングで上記のシナリオに答える。不確実性サンプリングは、受動的学習よりも少ないラベル付きインスタンスを使用することで、教師あり学習の効率を向上させる能動的学習手法である。ラベル付けされていないデータプールが与えられたとき、不確実性サンプリングは、予測された確率pが不確実性領域、すなわち$p \approx 0.5$に入るインスタンスのラベルを問い合わせる。次に、新しく取得したラベルを既存のラベル付きデータプールに追加して、新しいモデルを学習する。しかし、不確実性サンプリングの性能は、予測不可能な反応領域(AUR)やデータセットの性質に影響されやすい。新しいデータセットに関する事前知識なしに、受動学習と不確実性サンプリングのどちらを使うべきかを決定することは難しい。この問題に対処するため、我々は、新しいラベルを獲得するためにベル曲線の重み関数を用いるベルカーブサンプリングを提案する。p=0.5を中心とするベルカーブで、ベルカーブサンプリングは、予測値が不確実性領域にあるインスタンスを、残りを無視することなく、ほとんどの時間選択する。シミュレーションの結果、ベルカーブサンプリングは、異なる性質のデータセットやAURを持つデータセットにおいて、ほとんどの場合、不確実性サンプリングや受動的学習を凌駕することが示された。

要約(オリジナル)

Typically, a supervised learning model is trained using passive learning by randomly selecting unlabelled instances to annotate. This approach is effective for learning a model, but can be costly in cases where acquiring labelled instances is expensive. For example, it can be time-consuming to manually identify spam mails (labelled instances) from thousands of emails (unlabelled instances) flooding an inbox during initial data collection. Generally, we answer the above scenario with uncertainty sampling, an active learning method that improves the efficiency of supervised learning by using fewer labelled instances than passive learning. Given an unlabelled data pool, uncertainty sampling queries the labels of instances where the predicted probabilities, p, fall into the uncertainty region, i.e., $p \approx 0.5$. The newly acquired labels are then added to the existing labelled data pool to learn a new model. Nonetheless, the performance of uncertainty sampling is susceptible to the area of unpredictable responses (AUR) and the nature of the dataset. It is difficult to determine whether to use passive learning or uncertainty sampling without prior knowledge of a new dataset. To address this issue, we propose bell curve sampling, which employs a bell curve weight function to acquire new labels. With the bell curve centred at p=0.5, bell curve sampling selects instances whose predicted values are in the uncertainty area most of the time without neglecting the rest. Simulation results show that, most of the time bell curve sampling outperforms uncertainty sampling and passive learning in datasets of different natures and with AUR.

arxiv情報

著者 Zan-Kai Chong,Hiroyuki Ohsaki,Bok-Min Goi
発行日 2024-03-03 00:14:12+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.LG パーマリンク