Rank-Aware Negative Training for Semi-Supervised Text Classification

要約

半教師ありテキスト分類ベースのパラダイム (SSTC) では、通常、自己トレーニングの精神が採用されています。
重要なアイデアは、限定されたラベル付きテキストで深層分類器をトレーニングし、その後、さらなるトレーニングのためにラベルなしのテキストを擬似ラベルとして繰り返し予測することです。
ただし、パフォーマンスは擬似ラベルの精度に大きく影響され、実際のシナリオでは重要ではない可能性があります。
この論文では、ノイズの多いラベル方式で学習する SSTC に対処するためのランク認識ネガティブ トレーニング (RNT) フレームワークを紹介します。
ノイズの多い情報を軽減するために、ラベル付きテキストから受け取った証拠の裏付けに基づいてラベルなしテキストをランク付けするため、不確実性ベースのアプローチを使用した推論を適用します。
さらに、「入力インスタンスは補完ラベルに属さない」という概念に基づいて、ネガティブトレーニングを使用して RNT をトレーニングすることを提案します。
相補的なラベルは、オンターゲットのラベルを除くすべてのラベルからランダムに選択されます。
直感的には、真のラベルが補完的なラベルとして機能する確率は低いため、トレーニング中に提供されるノイズの少ない情報となり、テスト データのパフォーマンスが向上します。
最後に、提案されたソリューションをさまざまなテキスト分類ベンチマーク データセットで評価します。
私たちの広範な実験により、ほとんどのシナリオで最先端の代替手段を一貫して克服し、他のシナリオでは競争力のあるパフォーマンスを達成できることが示されています。
RNT のコードは、https://github.com/amurtadha/RNT で公開されています。

要約(オリジナル)

Semi-supervised text classification-based paradigms (SSTC) typically employ the spirit of self-training. The key idea is to train a deep classifier on limited labeled texts and then iteratively predict the unlabeled texts as their pseudo-labels for further training. However, the performance is largely affected by the accuracy of pseudo-labels, which may not be significant in real-world scenarios. This paper presents a Rank-aware Negative Training (RNT) framework to address SSTC in learning with noisy label manner. To alleviate the noisy information, we adapt a reasoning with uncertainty-based approach to rank the unlabeled texts based on the evidential support received from the labeled texts. Moreover, we propose the use of negative training to train RNT based on the concept that “the input instance does not belong to the complementary label”. A complementary label is randomly selected from all labels except the label on-target. Intuitively, the probability of a true label serving as a complementary label is low and thus provides less noisy information during the training, resulting in better performance on the test data. Finally, we evaluate the proposed solution on various text classification benchmark datasets. Our extensive experiments show that it consistently overcomes the state-of-the-art alternatives in most scenarios and achieves competitive performance in the others. The code of RNT is publicly available at:https://github.com/amurtadha/RNT.

arxiv情報

著者 Ahmed Murtadha,Shengfeng Pan,Wen Bo,Jianlin Su,Xinxin Cao,Wenze Zhang,Yunfeng Liu
発行日 2023-06-13 08:41:36+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク