Adversarial Word Dilution as Text Data Augmentation in Low-Resource Regime

要約

データ拡張はテキスト分類、特にトレーニング中に各クラスのサンプルがいくつか利用できる低リソース領域で広く使用されています。
成功にもかかわらず、効果を高める可能性のある確実な肯定的な例としてデータ拡張を生成することは十分に検討されていません。
この論文では、低リソースのテキスト分類モデルを効率的にトレーニングするためにテキスト データ拡張としてハード ポジティブ サンプルを生成できる Adversarial Word Dilution (AWD) 手法を提案します。
テキスト データを拡張するという私たちのアイデアは、未知の単語の埋め込みと重み付け混合することによって強い肯定的な単語の埋め込みを薄め、拡張された入力が分類モデルによって肯定的なものとして認識されにくくすることです。
ラベルのガイダンスに従って、制約付きの最小-最大最適化プロセスを通じて、敵対的に希釈重みを学習します。
3 つのベンチマーク データセットに関する実証研究では、AWD がより効果的なデータ拡張を生成し、最先端のテキスト データ拡張手法を上回るパフォーマンスを発揮できることが示されています。
追加の分析は、AWD によって生成されたデータ拡張が解釈可能であり、さらなるトレーニングなしで新しい例に柔軟に拡張できることを示しています。

要約(オリジナル)

Data augmentation is widely used in text classification, especially in the low-resource regime where a few examples for each class are available during training. Despite the success, generating data augmentations as hard positive examples that may increase their effectiveness is under-explored. This paper proposes an Adversarial Word Dilution (AWD) method that can generate hard positive examples as text data augmentations to train the low-resource text classification model efficiently. Our idea of augmenting the text data is to dilute the embedding of strong positive words by weighted mixing with unknown-word embedding, making the augmented inputs hard to be recognized as positive by the classification model. We adversarially learn the dilution weights through a constrained min-max optimization process with the guidance of the labels. Empirical studies on three benchmark datasets show that AWD can generate more effective data augmentations and outperform the state-of-the-art text data augmentation methods. The additional analysis demonstrates that the data augmentations generated by AWD are interpretable and can flexibly extend to new examples without further training.

arxiv情報

著者 Junfan Chen,Richong Zhang,Zheyan Luo,Chunming Hu,Yongyi Mao
発行日 2023-08-09 10:45:52+00:00
arxivサイト arxiv_id(pdf)

提供元, 利用サービス

arxiv.jp, Google

カテゴリー: cs.CL パーマリンク