要約
注釈付きの大規模なデータの可用性は、特に多様なドメインに適用される場合、機械学習アルゴリズムを適切にトレーニングする上で重大なボトルネックになる可能性があります。
弱い監視は、ドメイン固有のルールを使用してラベル付きトレーニング データの作成を加速することで、有望な代替手段を提供します。
ただし、ラベルのないデータにラベルを割り当てるには、ユーザーが高品質のさまざまなルールを作成する必要があります。
自動ルール誘導 (ARI) アプローチは、小さなラベル付きセット上のフィーチャからルールを自動的に作成し、そこから最終的なルール セットをフィルタリングすることで、この問題を回避します。
ARI のアプローチでは、自動的に作成されたルールの大規模なセットから、高品質で有用なルールのサブセットをフィルタリングして取り出すことが重要なステップとなります。
この論文では、ルールセットの全体的な精度、カバレッジ、および競合を考慮したサブモジュール目的関数を使用して、多数の自動的に誘導されたルールからルールをフィルタリングするアルゴリズム (自動誘導ルールのフィルタリング) を提案します。
いくつかの半教師ありラベル集約アプローチに関してアルゴリズムの優れたパフォーマンスを検証するために、3 つの ARI アプローチと 5 つのテキスト分類データセットを実験します。
さらに、既存のルール フィルタリング アプローチと比較して、統計的に有意な結果が得られることを示します。
要約(オリジナル)
The availability of large annotated data can be a critical bottleneck in training machine learning algorithms successfully, especially when applied to diverse domains. Weak supervision offers a promising alternative by accelerating the creation of labeled training data using domain-specific rules. However, it requires users to write a diverse set of high-quality rules to assign labels to the unlabeled data. Automatic Rule Induction (ARI) approaches circumvent this problem by automatically creating rules from features on a small labeled set and filtering a final set of rules from them. In the ARI approach, the crucial step is to filter out a set of a high-quality useful subset of rules from the large set of automatically created rules. In this paper, we propose an algorithm (Filtering of Automatically Induced Rules) to filter rules from a large number of automatically induced rules using submodular objective functions that account for the collective precision, coverage, and conflicts of the rule set. We experiment with three ARI approaches and five text classification datasets to validate the superior performance of our algorithm with respect to several semi-supervised label aggregation approaches. Further, we show that achieves statistically significant results in comparison to existing rule-filtering approaches.
arxiv情報
著者 | Divya Jyoti Bajpai,Ayush Maheshwari,Manjesh Kumar Hanawal,Ganesh Ramakrishnan |
発行日 | 2024-02-23 18:04:54+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google