Investigating Semi-Supervised Learning Algorithms in Text Datasets

要約

大規模な学習データセットを使用することで、ニューラルネットワークの汎化能力が向上する。半教師付き学習(SSL)は、ラベル付けされたデータが少なく、ラベル付けされていないデータが多い場合に有効である。データ補強を使用するSSL手法は、画像データセットで最も成功する。対照的に、テキストには画像のような一貫したオーグメンテーション手法がない。その結果、オーグメンテーションを用いる手法は、テキストデータでは画像データほど有効ではない。本研究では、オーグメンテーションを必要としないSSLアルゴリズム(自己学習、協調学習、三学習、不一致を伴う三学習)を比較した。実験では、4つの異なるタスクのテキストデータセットを用いた。実験では、様々な質問により様々な観点からアルゴリズムを検討し、いくつかの改善点を提案した。これらのアルゴリズムの中で、不一致を伴うtri-trainingはOracleに最も近い性能を示したが、性能のギャップから、新たな半教師付きアルゴリズムや既存の手法の改良が必要であることが示された。

要約(オリジナル)

Using large training datasets enhances the generalization capabilities of neural networks. Semi-supervised learning (SSL) is useful when there are few labeled data and a lot of unlabeled data. SSL methods that use data augmentation are most successful for image datasets. In contrast, texts do not have consistent augmentation methods as images. Consequently, methods that use augmentation are not as effective in text data as they are in image data. In this study, we compared SSL algorithms that do not require augmentation; these are self-training, co-training, tri-training, and tri-training with disagreement. In the experiments, we used 4 different text datasets for different tasks. We examined the algorithms from a variety of perspectives by asking experiment questions and suggested several improvements. Among the algorithms, tri-training with disagreement showed the closest performance to the Oracle; however, performance gap shows that new semi-supervised algorithms or improvements in existing methods are needed.

arxiv情報

著者 Himmet Toprak Kesgin,Mehmet Fatih Amasyali
発行日 2024-01-03 17:22:48+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, DeepL

カテゴリー: cs.AI, cs.CL, cs.LG パーマリンク