Learning Hyper Label Model for Programmatic Weak Supervision

要約

人間によるアノテーションの労力を削減するために、プログラムによる弱い監視 (PWS) パラダイムは、弱い監視ソースをラベリング関数 (LF) として抽象化し、ラベル モデルを使用して複数の LF の出力を集約してトレーニング ラベルを生成します。
ほとんどの既存のラベル モデルでは、データセットごとにパラメーター学習ステップが必要です。
この作業では、データセット固有のパラメーター学習なしで、単一のフォワード パスで各データセットのグラウンド トゥルース ラベルを (一度学習すると) 推論するハイパー ラベル モデルを提示します。
ハイパー ラベル モデルは、グラウンド トゥルース ラベルの最適な分析 (まだ計算処理が難しい) 解を近似します。
モデルが分析的な最適解を近似するように生成された合成データでモデルをトレーニングし、グラフ ニューラル ネットワーク (GNN) でモデルを構築して、モデル予測が LF の順列 (または
データポイント)。
14 の実世界のデータセットで、ハイパー ラベル モデルは、精度 (平均 1.4 ポイント) と効率 (平均 6 倍) の両方で、既存の最良の方法よりも優れています。
私たちのコードは https://github.com/wurenzhi/hyper_label_model で入手できます

要約(オリジナル)

To reduce the human annotation efforts, the programmatic weak supervision (PWS) paradigm abstracts weak supervision sources as labeling functions (LFs) and involves a label model to aggregate the output of multiple LFs to produce training labels. Most existing label models require a parameter learning step for each dataset. In this work, we present a hyper label model that (once learned) infers the ground-truth labels for each dataset in a single forward pass without dataset-specific parameter learning. The hyper label model approximates an optimal analytical (yet computationally intractable) solution of the ground-truth labels. We train the model on synthetic data generated in the way that ensures the model approximates the analytical optimal solution, and build the model upon Graph Neural Network (GNN) to ensure the model prediction being invariant (or equivariant) to the permutation of LFs (or data points). On 14 real-world datasets, our hyper label model outperforms the best existing methods in both accuracy (by 1.4 points on average) and efficiency (by six times on average). Our code is available at https://github.com/wurenzhi/hyper_label_model

arxiv情報

著者 Renzhi Wu,Shen-En Chen,Jieyu Zhang,Xu Chu
発行日 2023-03-08 16:33:15+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.DB, cs.LG パーマリンク