要約
BERT などの事前トレーニング済みの変換モデルは、多くのテキスト分類タスクにわたって大幅な向上を示しています。
ただし、これらのモデルは通常、優れたパフォーマンスを達成するために膨大なラベル付きデータを必要とします。
ラベル付きデータの取得には費用と時間がかかることがよくありますが、ヒューリスティックを使用してラベルなしデータを収集する場合は、どのタスクでも比較的安価です。
したがって、この論文では、モデルのパフォーマンスを向上させるための新しい方法で、強化学習ベースのテキスト生成と半教師あり敵対的学習アプローチをカプセル化する方法を提案します。
私たちのメソッド READ (強化ベースの敵対的学習) は、ラベルなしのデータセットを利用して強化学習を通じて多様な合成テキストを生成し、敵対的学習を使用してモデルの汎化能力を向上させます。
私たちの実験結果は、READ が複数のデータセットに対して既存の最先端の手法よりも優れたパフォーマンスを発揮することを示しています。
要約(オリジナル)
Pre-trained transformer models such as BERT have shown massive gains across many text classification tasks. However, these models usually need enormous labeled data to achieve impressive performances. Obtaining labeled data is often expensive and time-consuming, whereas collecting unlabeled data using some heuristics is relatively much cheaper for any task. Therefore, this paper proposes a method that encapsulates reinforcement learning-based text generation and semi-supervised adversarial learning approaches in a novel way to improve the model’s performance. Our method READ, Reinforcement-based Adversarial learning, utilizes an unlabeled dataset to generate diverse synthetic text through reinforcement learning, improving the model’s generalization capability using adversarial learning. Our experimental results show that READ outperforms the existing state-of-art methods on multiple datasets.
arxiv情報
著者 | Rohit Sharma,Shanu Kumar,Avinash Kumar |
発行日 | 2025-01-14 11:39:55+00:00 |
arxivサイト | arxiv_id(pdf) |
提供元, 利用サービス
arxiv.jp, Google