A Benchmark Generative Probabilistic Model for Weak Supervised Learning



– 機械学習モデルを訓練するための適切で高品質なデータセットを見つけることは、実践者にとって主要なボトルネックである。
– さらに、野心的な現実世界のユースケースを対象にする場合、高品質な注釈が付けられたデータが必要であり、これは監視モデルのトレーニングを容易にすることができる。
– 高品質のラベルでデータの手動注釈を行うことは、一般的に時間のかかる困難な作業であり、これが機械学習プロジェクトのボトルネックになることがよくある。
– 弱監視学習(WSL)のアプローチは、ヒューリスティック、遠隔監視、知識ベースに基づいたオートマチックな近似ラベル(疑似ラベル)の割り当ての自動的な方法を提供することで、注釈の負担を軽減するように開発されています。
– オリジナルのデータセットのヒューリスティック注釈表現でトレーニングされた確率的生成潜在変数モデル(PLVM)を疑似ラベルの生成の正確で迅速で費用対効果の高い方法として適用する。
– PLVMは、4つのデータセット全体で状態-of-the-artの性能を発揮し、例えば、スポースデータセットのクラス不均衡で、Snorkelよりも22%のF1スコアを実現しています。
– PLVMは、Snorkelなどの既存のWSLフレームワークのプラグ&プレイ可能であり、より複雑なアルゴリズムのためのベンチマークモデルとしても使用でき、実践者に強力な精度向上を提供します。


Finding relevant and high-quality datasets to train machine learning models is a major bottleneck for practitioners. Furthermore, to address ambitious real-world use-cases there is usually the requirement that the data come labelled with high-quality annotations that can facilitate the training of a supervised model. Manually labelling data with high-quality labels is generally a time-consuming and challenging task and often this turns out to be the bottleneck in a machine learning project. Weak Supervised Learning (WSL) approaches have been developed to alleviate the annotation burden by offering an automatic way of assigning approximate labels (pseudo-labels) to unlabelled data based on heuristics, distant supervision and knowledge bases. We apply probabilistic generative latent variable models (PLVMs), trained on heuristic labelling representations of the original dataset, as an accurate, fast and cost-effective way to generate pseudo-labels. We show that the PLVMs achieve state-of-the-art performance across four datasets. For example, they achieve 22% points higher F1 score than Snorkel in the class-imbalanced Spouse dataset. PLVMs are plug-and-playable and are a drop-in replacement to existing WSL frameworks (e.g. Snorkel) or they can be used as benchmark models for more complicated algorithms, giving practitioners a compelling accuracy boost.


著者 Georgios Papadopoulos,Fran Silavong,Sean Moran
発行日 2023-03-31 07:06:24+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, OpenAI

カテゴリー: cs.AI, cs.LG パーマリンク